18 mapreduce 数据倾斜

最新推荐文章于 2024-05-16 13:02:17 发布

qq_34352013

最新推荐文章于 2024-05-16 13:02:17 发布

阅读量154

点赞数

分类专栏： Reduce hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34352013/article/details/104952568

版权

hadoop 同时被 2 个专栏收录

33 篇文章 0 订阅

订阅专栏

20 篇文章 1 订阅

订阅专栏

什么是数据倾斜

数据倾斜就是在多个节点之间，处理数据的压力不一样，有点节点比较忙，但是有点节点比较轻松，这个就是发生了数据倾斜。

产生的原因

1、数据本身具有倾斜的特性 - 数据本身就是不平均的 - 所以数据倾斜不能避免
2、map端可能会发生数据倾斜。产生的条件三者缺一不可，分别是：多源输入、输入的文件不可切且大小不均等（从而导致有点mapTask任务重有点轻）—— 三个条件缺一不可，而且Map端的数据倾斜无法避免而且无法解决
3、实际生产过程中，reduce端的数据倾斜更多。绝大部分的数据倾斜都是发生在了Reduce端 - Reduce端产生数据倾斜的本质原因是因为数据本身具有倾斜特性，但是Reduce端产生倾斜的表面原因是因为数据的分类(分区操作)

reduce端数据倾斜解决方案

针对Reduce端的数据倾斜，经常采用的方案：二/两阶段聚合

两阶段聚合方案

1、先将数据打散，打散之后先分别聚合
2、按照业务指定分类，对数据进行最后的汇总
在这里插入图片描述
第一阶段，先将数据完全打散，将数据随机分配到多个分区上进行计算。需要考虑分区的维度。比如说姓名，月份，原本是按照月份进行分区，但是如果直接按照月份进行分区时会出现数据倾斜；所以先将所有的数据随机分配到不同的reduce节点，然后根据（姓名，月份）作为联合主键进行汇总统计。

第二阶段将第一个阶段的输出结果作为输入，对月份进行分区，在每一个分区按照名称进行汇总求和。（有点多级reduce的意思）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
18 mapreduce 数据倾斜

什么是数据倾斜数据倾斜就是在多个节点之间，处理数据的压力不一样，有点节点比较忙，但是有点节点比较轻松，这个就是发生了数据倾斜。产生的原因1、数据本身具有倾斜的特性 - 数据本身就是不平均的 - 所以数据倾斜不能避免2、map端可能会发生数据倾斜。产生的条件三者缺一不可，分别是：多源输入、输入的文件不可切且大小不均等（从而导致有点mapTask任务重有点轻）—— 三个条件缺一不可，而且Map...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。