数据倾斜常见原因和解决办法

江淮杰

于 2021-12-25 16:02:59 发布

阅读量4.6k

点赞数 1

分类专栏：笔记文章标签： mapreduce 大数据数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jianghuaijie/article/details/122144662

版权

数据倾斜在MapReduce中导致长尾问题，本文分析了map、join和reduce时发生倾斜的原因，并提出相应解决办法，如调整小文件、使用distribute by、动态分区等策略，以平衡数据分布。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据倾斜在MapReduce编程模型中十分常见，多个节点并行计算，如果分配的不均，就会导致长尾问题（大部分节点都完成了任务，一直等待剩下的节点完成任务），本文梳理了常见的发生倾斜的原因以及相应的解决办法。

1.map端发生数据倾斜

产生原因：

读取数据时，上游文件大小分布不均，存在大量小文件。导致在读入数据时读小文件的maptask很快结束了，而读大文件的maptask进度可能进度才刚开始。
map端做聚合的时候，由于数据存在大量的count distinct,我们通过combiner在map端提前做聚合的时候，热点key被放大N倍（ N = count distinct 数），其所对应的maptaskconbiner操作时间被拉长。

解决办法：

对于1的问题，我们可以通过提前合并小文件和参数调优，一个是maptask的数量，另一个是maptask读取的文件数量限制。

对于2的问题，我们可以通过使用distribute by rand(),将map里面的值再进行打乱分发。

2.join时发生数据倾斜

首先我们可以了解一下mapreduce框架下的join的实现原理

感兴趣的同学可以去看美团的文章。

最低0.47元/天解锁文章

博客等级

码龄5年

6
原创

9
点赞

66
收藏

7
粉丝

关注

私信

热门文章

分类专栏

数据仓库建模 1篇
笔记 3篇

最新评论

数据仓库之DWD层
shihowlong: 在下有个疑问，周期性快照其实都用到了聚合的操作，按我的理解，只要有聚合是不是都应该放到dws层里面去啊
数据仓库之DWD层
shihowlong: 在下有个疑问，周期性快照其实都用到了聚合的操作，按我的理解，只要有聚合是不是都应该放到dws层里面去啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。