hadoop解决数据倾斜的办法及项目调优

最新推荐文章于 2023-08-31 10:03:28 发布

星有印象

最新推荐文章于 2023-08-31 10:03:28 发布

阅读量399

点赞数

文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a6a6a_6/article/details/123811536

版权

数据倾斜：

目录

数据倾斜：

1，提前在map进行combine，减少传输的数据量

在Mapper加上combiner相当于提前进行reduce，即把一个Mapper中的相同key进行了聚合，减少shuffle过程中传输的数据量，以及Reducer端的计算量。

如果导致数据倾斜的key大量分布在不同的mapper的时候，这种方法就不是很有效了。

2，导致数据倾斜的key 大量分布在不同的mapper

（1）局部聚合加全局聚合。

第一次在map阶段对那些导致了数据倾斜的key 加上1到n的随机前缀，这样本来相同的key 也会被分到多个Reducer中进行局部聚合，数量就会大大降低。

第二次mapreduce，去掉key的随机前缀，进行全局聚合。

思想：二次mr，第一次将key随机散列到不同reducer进行处理达到负载均衡目的。第二次再根据去掉key的随机前缀，按原key进行reduce处理。

这个方法进行两次mapreduce，性能稍差。

（2）增加Reducer，提升并行度
JobConf.setNumReduceTasks(int)

（3）实现自定义分区

根据数据分布情况，自定义散列函数，将key均匀分配到不同Reducer

项目调优：

mr任务慢的原因，map数量reduce数量设置不合理，reduce等待过久，小文件过多，spill次数过多，merge次数过多

1）数据倾斜：

可能是partition不合理，导致partition中的部分数据过多，部分数据过少，可通过数据分析，自定义分区进行处理

2）合理设置map，reduce数量：

两个都不能设置太多，也不能设置太少，太少，会导致task等待，延长处理时间。太多，会导致map，reduce任务间竞争，造成超时等错误

3）设置map，reduce共存

当任务过大时，可以开启map与reduce共存，当map运行到一定时间后，reduce也开始运行。减少等待时间。

4）合并小文件

在执行mr任务前将小文件合并，大量小文件会产生大量的map任务，增大map的装载次数，而任务的装载比较耗时，所以会拖慢运行速度。

5）减少spill次数

环形缓冲区，可以增加环形缓冲区大小和增加环形缓冲区数据溢写比例，增大触发spill内存上限，减少spill次数，从而减少磁盘IO。

6）减少merge次数

mapreduce两端合并文件数目，增大merge文件数目，从而缩短mr处理时间。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
hadoop解决数据倾斜的办法及项目调优

数据倾斜：目录数据倾斜项目调优数据倾斜：1，提前在map进行combine，减少传输的数据量在Mapper加上combiner相当于提前进行reduce，即把一个Mapper中的相同key进行了聚合，减少shuffle过程中传输的数据量，以及Reducer端的计算量。如果导致数据倾斜的key大量分布在不同的mapper的时候，这种方法就不是很有效了。2，导致数据倾斜的key 大量分布在不同的mapper（1）局部聚合加全局聚...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

星有印象 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。