MapReduce数据倾斜的解决经验

最新推荐文章于 2024-05-14 22:51:43 发布

aeolus83

最新推荐文章于 2024-05-14 22:51:43 发布

阅读量237

点赞数

分类专栏： hadoop java 文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aeolus83/article/details/84815008

版权

java 同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

12 篇文章 0 订阅

订阅专栏

数据倾斜的意思就是某些key对应的信息条数过多，导致对应reducer的内存溢出。

解决这个问题，要区分一下问题引起的原因。无非是：

由于对数据构成认识不足，导致启动配置资源的不合理
刷量数据的不合理涌入

对于第一种情况，我们可以通过调整reduce的个数，以及reducer的jvm大小来解决。

对于第二种情况，我建议应该先分析数据的倾斜原因，考虑这部分数据生成的原因，是程序错误还是恶意的刷量数据。当然这个工作并不在解决数据倾斜的内容中。

解决的方案比较简单，以时间换空间。通过修改patition的方式更改key的分配方式，让所有的key即能分散，又能达到一定程度的合并，达到数据规模下降的目的。key的生成方式可以采用“加延”的方法，比如，让每个key后面都带上patition的序号，或者带上时间段的某个位。然后通过计算这部分中间结果的方式来获取最后的结果。

简单来说，处理方法的考虑顺序可以这样：

1. 增加reducer个数，以及提高reduce的内存分配

2. 使用combiner

3. 使用自定义的partitioner

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
MapReduce数据倾斜的解决经验

数据倾斜的意思就是某些key对应的信息条数过多，导致对应reducer的内存溢出。解决这个问题，要区分一下问题引起的原因。无非是：由于对数据构成认识不足，导致启动配置资源的不合理刷量数据的不合理涌入对于第一种情况，我们可以通过调整reduce的个数，以及reducer的jvm大小来解决。对于第二种...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。