Spark性能调优系列：（六）数据倾斜（将reduce join转为map join）

最新推荐文章于 2021-08-10 16:28:31 发布

Mr Cao

最新推荐文章于 2021-08-10 16:28:31 发布

阅读量657

点赞数 2

分类专栏：大数据 spark 文章标签： Spark性能调优

本文链接：https://blog.csdn.net/qq1021979964/article/details/103288161

版权

大数据同时被 2 个专栏收录

61 篇文章 5 订阅

订阅专栏

spark

28 篇文章 3 订阅

订阅专栏

适用场景

在对RDD适用join类操作，或者是在SparkSQL中使用join语句时，而且join操作中的一个RDD或表的数据量较小(几百MB到几G)，就适用该方案。

实现思路

不使用join算子进行连接操作，而使用Broadcast变量与map类算子实现join操作，进而完全避免shuffle类的操作，彻底避免数据倾斜的发生和出现，将较小RDD中的数据直接通过collect算子拉取到Driver端的内存中来，然后对其创建一个Broadcast变量。
接着对另外一个RDD执行map类算子，在算子函数内，从Broadcast变量中获取较小RDD的全量数据，与当前RDD的每一条数据按照连接key进行比对，如果连接key相同的话，那么就将两个RDD的数据用你需要的方式连接起来。

实现原理

普通的join是会走shuffle过程的，而且一旦shuffle，就相当于将相同key的数据拉取到一个shuffle read task中再进行join，此时就是reduce join。
但是如果一个RDD是较小的，则可以采用广播小RDD全量数据+map算子来实现与join同样的效果，也就是map join，此时则不会发生shuffle操作，也就不会发生数据倾斜。

优点

对join操作导致的数据倾斜，效果非常好，因为根本不会发生shuffle，也就根本不会发生数据倾斜。

缺点

适用场景较少，因为这个方案只适用于一个大表和一个小表的情况，毕竟我们需要将小表进行广播，此时会比较消耗内存资源，driver和每个Executor内存中都会驻留一份小RDD的全量数据，如果我们广播出去的RDD数据较大，比如10G以上，那么则会可能造成内存溢出，因此不适用两个都是大表的情况。

原理图

Mr Cao

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录