解决Hadoop数据倾斜问题

PhoenixLuo·

于 2023-03-27 15:28:15 发布

阅读量819

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据文章标签： hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/L1281141126/article/details/129796383

大数据专栏收录该内容

13 篇文章

订阅专栏

Combiner用于在Map阶段进行局部聚合，减少数据传输量和Reducer的计算压力。然而，当数据倾斜发生，即某些key集中在特定Mapper时，效果有限。为解决这个问题，可以采用添加随机数前缀分散key，增加Reducer数量或自定义分区和散列函数来提高并行性和负载均衡。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在Map端进行combine预聚合

Combiner对每一个maptask的输出进行局部汇总，减少数据的传输量。把一个mapper中相同的key进行聚合，计算规则和reduce一致。减少shuffle过程中传输的数据量，以及reducer端的计算量。

如果导致数据倾斜的key大量分布在不同的mapper时候，该方法不是很有效。

数据倾斜的key分布在不同的mapper

局部聚合+全局聚合（性能稍差）

有两次MR。第一次在map阶段对导致数据倾斜的key加上随机数前缀，这样将相同的key分布到不同的reducer中进行局部聚合，达到负载均衡的目的。第二次去掉key的随机数前缀，按照原key进行全局聚合。

增加reducer，提高并行度

JobConf.setNumReduceTasks(int)

实现自定义分区

自定义散列函数，将key均匀分布到不同的Reducer中。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。