数据倾斜时如何应对--倾斜key单独处理/MapJoin/SkewJoin的原理及使用方法

若愚致远

已于 2023-10-08 10:18:39 修改

阅读量163

点赞数

分类专栏： ArgoDB 文章标签：数据库 sql 数据库开发 spark mr 大数据

于 2023-10-08 10:09:19 首次发布

本文链接：https://blog.csdn.net/andarly/article/details/133671169

版权

方法一倾斜的key单独处理
当存在大量倾斜key的时候，可以通过手动拆分，将倾斜与未倾斜的部分分别做处理，再将结果合并。
用法示例：不包括倾斜key的查询union all包括倾斜key的查询

select
*
from
FACT f
left join DIMENSION d
on f.CODE_ID = d.CODE_ID
where
f.CODE_ID <> 250
union all
select
*
from
FACT f
left join DIMENSION d
on f.CODE_ID = d.CODE_ID
where
f.CODE_ID = 250
and d.CODE_ID = 250

还有一种情况比较简单，如果业务上不需要一些key的参与（比如空字符串等无效或无价值的key），可以考虑将倾斜的key直接过滤掉。
用法示例：

select a.col1,null as col2 from test1 a
where a.id is null
union all
select a.col1,b.col2 from test1 a
left join test2 b on a.id=b.id
where a.id is not null

但是这种方法适用的场景是导致倾斜的key只有少数几个，并且不影响最终结果。所以如果倾斜的key比较重要，不适合进行过滤的操作，也可以采用下面的方式进一步解决。

方法二改用MapJoin的形式，广播小表出去，避免shuffle
CommonJoin（也被称为Shuffle Join/Reduce side Join/Sort Merge Join..）主要是在 Shuffle 阶段（Reduce 端）执行。
Common Join 的一个主要问题是在数据整理排序的过程上耗费了大量的资源，它会启动一个Task，Mapper会去读取两张

最低0.47元/天解锁文章

若愚致远

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
数据倾斜时如何应对--倾斜key单独处理/MapJoin/SkewJoin的原理及使用方法

Common Join 的一个主要问题是在数据整理排序的过程上耗费了大量的资源，它会启动一个Task，Mapper会去读取两张表中的数据，然后处理数据后会对对他们进行排序、合并等操作，然后相同key的所有行数据都会分发到同一个节点上。但是MapJoin只适用于大表小表Join的情况，因为MapJoin会将指定表的数据全部加载在内存，表在被加载到内存后，数据大小会急剧膨胀，因此指定的表只能是小表。当存在大量倾斜key的时候，可以通过手动拆分，将倾斜与未倾斜的部分分别做处理，再将结果合并。
复制链接

扫一扫