Spark性能调优系列：（五）数据倾斜（两阶段聚合(局部聚合+全局聚合)）

最新推荐文章于 2022-03-17 22:54:00 发布

Mr Cao

最新推荐文章于 2022-03-17 22:54:00 发布

阅读量838

点赞数 1

分类专栏：大数据 spark 文章标签： Spark性能调优

本文链接：https://blog.csdn.net/qq1021979964/article/details/103179750

版权

大数据同时被 2 个专栏收录

61 篇文章 5 订阅

订阅专栏

spark

28 篇文章 3 订阅

订阅专栏

两阶段聚合(局部聚合+全局聚合)

适用场景

对RDD执行reduceByKey等聚合类shuffle算子或者在SparkSQL中使用Groupby语句进行分组聚合时，比较适用这种方案。

实现思路

核心实现思路就是进行两阶段聚合。第一次是局部聚合，先给每个key都打上一个随机数，比如10以内的随机数，此时原先一样的key就变成不一样的了，
比如：(hello,1)(hello,1)(hello,1)(hello,1)(hello,1)会变成(1_hello,1)(1_hello,1)(1_hello,1)(2_hello,1)(2_hello,1)。接着对打上随机数之后的数据，执行reduceByKey等聚合操作，进行局部聚合，
那么局部聚合结果，就会变成(1_hello,3)(1_hello,2),然后将各个key的前缀给去掉，就变成(hello,3)(hello,2)，再次进行全局聚合操作，就可以得到最终结果，比如(hello,5)

实现原理

将原本相同的key通过附加随机前缀的方式，变成多个不同的key，就可以原本被一个Tsak处理的数据分散到多个Task上去做局部聚合，进而解决单个Task 处理数据量过多的问题，接着去除掉随机前缀，再次进行全局聚合，便可得到最终结果。

优点

对于聚合类的shuffle操作导致的数据倾斜，效果是非常不错的。通常都可以解决掉数据倾斜，或者至少是大幅度缓解数据倾斜，将Spark作业的性能提升数倍以上。

缺点

仅仅适用于聚合类的shuffle操作，适用范围相对较窄。如果是join类的shuffle操作，还得用其他的解决方案。

原理图

Mr Cao

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
Spark性能调优系列：（五）数据倾斜（两阶段聚合(局部聚合+全局聚合)）

两阶段聚合(局部聚合+全局聚合)适用场景对RDD执行reduceByKey等聚合类shuffle算子或者在SparkSQL中使用Groupby语句进行分组聚合时，比较适用这种方案。实现思路核心实现思路就是进行两阶段聚合。第一次是局部聚合，先给每个key都打上一个随机数，比如10以内的随机数，此时原先一样的key就变成不一样的了，比如：(hello,1)(hello,1)(h...
复制链接

扫一扫

专栏目录