Hadoop数据倾斜问题

Arvin_SC

于 2021-03-16 17:11:33 发布

阅读量265

点赞数

文章标签： hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/arvin_sc/article/details/114887813

版权

数据倾斜：大量的key被partition分配到一个分区里，mapreduce程序执行时，导致承担大量key的reduce节点运行慢，而由于木桶效应，整个程序的处理时间取决于最后的reduce节点，这就是数据倾斜。直观解释就是：忙的忙死，闲的闲死。

解决方案:

1.增加jvm（java虚拟机）内存。

2.增加reduce的个数。

3.自定义分区，用户自己继承partition类，指定分区策略，这种方式效果比较显著。

4.重新设计key，在map阶段时给key加上一个随机数，有了随机数的key就不会被大量的分配到同一节点，待到reduce后再把随机数去掉即可。在map阶段将造成倾斜的key先分成多组，例如aaa这个key，map时随机在aaa后面加上1,2,3,4这四个数字之一，把key先分成四组，先进行一次运算，之后再恢复key进行最终运算。

5.使用combinner合并，combinner是在map阶段，reduce之前的一个中间阶段，在这个阶段可以选择性的把大量的相同key数据先进行一个合并，可以看做是local reduce，然后再交给reduce来处理，这样不但减轻了map端向reduce端发送的数据量（减轻了网络带宽），也减轻了map端和reduce端中间的shuffle阶段的数据拉取数量(本地化磁盘IO速率)，推荐使用这种方法。

6.能先进行group操作的时候先进行group操作，把key先进行一次reduce，之后再进行count或者distinct count操作。

7.join操作中，使用map join在map端就先进行 join，免得到reduce 时卡住。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Hadoop数据倾斜问题

数据倾斜：大量的key被partition分配到一个分区里，mapreduce程序执行时，导致承担大量key的reduce节点运行慢，而由于木桶效应，整个程序的处理时间取决于最后的reduce节点，这就是数据倾斜。直观解释就是：忙的忙死，闲的闲死。解决方案: 1.增加jvm（java虚拟机）内存。 2.增加reduce的个数。 3.自定义分区，用户自己继承partition类，指定分区策略，这种方式效果比较显著。 4.重新设计key，在map阶段时给key加上一个随机...
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。