解决reduce拉取map数据的时候key设计的不均衡问题

最新推荐文章于 2022-11-02 14:36:31 发布

爱吃芝麻

最新推荐文章于 2022-11-02 14:36:31 发布

阅读量639

点赞数

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43006131/article/details/103113195

版权

数据倾斜是指数据的key分布严重不均，导致部分数据量过大，影响reduce阶段的效率。例如在word count中，若“aaa”占据大部分数据，会导致一个reduce处理大量数据而其他reduce处理少量数据。数据倾斜与业务逻辑和数据量有关，如group by、distinct、join操作都可能引发。解决方案包括key加随机数、key加序列和随机partition等，但需考虑是否改变业务真实情况。

摘要由CSDN通过智能技术生成

什么是数据倾斜及数据倾斜是怎么产生？

简单来说数据倾斜就是数据的key 的分化严重不均，造成一部分数据很多，大部分数据很少的局面。

举个 word count 的入门例子，它的map 阶段就是形成（“aaa”,1）的形式，然后在reduce 阶段进行 value 相加，得出 “aaa” 出现的次数。若进行 word count 的文本有100G，其中 80G 全部是 “aaa” 剩下 20G 是其余单词，那就会形成 80G 的数据量交给一个 reduce 进行相加，其余 20G 根据 key 不同分散到不同 reduce 进行相加的情况。如此就造成了数据倾斜，临床反应就是 reduce 跑到 99%然后一直在原地等着那80G 的reduce 跑完。

说起来不好理解的话可以看下图：

这样就能清楚看到，数据经过 map后，由于不同key 的数据量分布不均，在shuffle 阶段中通过 partition 将相同的 key 的数据打上发往同一个 reducer 的标记，然后开始 spill （溢写）写入磁盘，最后merge成最终map阶段输出文件。

如此一来 80G 的 aaa 将发往同一个 reducer ，由此就可以知道 reduce 最后 1% 的工作在等什么了。

为什么说数据倾斜与业务逻辑和数据量有关

从另外角度看数据倾斜，其本质还是在单台节点在执行那一部分数据reduce任务的时候，由于数据量大，跑不动，造成任务卡住。

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。