Spark Core中解决group by造成的数据倾斜问题

最新推荐文章于 2024-02-20 21:50:03 发布

ZhuangYQ丶

最新推荐文章于 2024-02-20 21:50:03 发布

阅读量1.4k

点赞数 1

分类专栏：大数据学习 Spark

本文链接：https://blog.csdn.net/iilegend/article/details/97676109

版权

在大数据开发中，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。该篇博客参考美团的spark高级版，修改了代码使用了scala写的。

这个方案的核心实现思路就是进行两阶段聚合。第一次是局部聚合，先给每个key都打上一个随机数，比如10以内的随机数，此时原先一样的key就变成不一样的了，比如(hello, 1) (hello, 1) (hello, 1) (hello, 1)，就会变成(1_hello, 1) (1_hello, 1) (2_hello, 1) (2_hello, 1)。接着对打上随机数后的数据，执行reduceByKey等聚合操作，进行局部聚合，那么局部聚合结果，就会变成了(1_hello, 2) (2_hello, 2)。然后将各个key的前缀给去掉，就会变成(hello,2)(hello,2)，再次进行全局聚合操作，就可以得到最终结果了，比如(hello, 4)。

方案实现原理：将原本相同的key通过附加随机前缀的方式，变成多个不同的key，就可以让原本被一个task处理的数据分散到多个task上去做局部聚合，进而解决单个task处理数据量过多的问题。接着去除掉随机前缀，再次进行全局聚合，就可以得到最终的结果。具体原理见下图。

最低0.47元/天解锁文章

ZhuangYQ丶

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark Core中解决group by造成的数据倾斜问题

在大数据开发中，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。该篇博客参考美团的spark高级版，修改了代码使用了scala写的。这个方案的核心实现思路就是进行两阶段聚合。第一次是局部聚合，先给每个key都打上一个随机数，比如...
复制链接

扫一扫

专栏目录