Hadoop3：MR程序的数据倾斜问题处理

生产队队长

于 2024-07-17 09:48:31 发布

阅读量582

点赞数 2

分类专栏： Hadoop 文章标签： mr

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/brave_heart4pzj/article/details/140485659

版权

Hadoop 专栏收录该内容

56 篇文章 4 订阅

订阅专栏

一、数据倾斜

什么是数据倾斜？
学过Redis集群的都知道数据倾斜这个问题。

就是大量数据，分配不均匀的现象。

二、MR数据倾斜

1、怎么判断出现数据倾斜？

数据频率倾斜——某一个区域的数据量要远远大于其他区域。
数据大小倾斜——部分记录的大小远远大于平均值。
如下图的一个案例：
所有进程都已经完成，MR程序完成度达到99%，只剩下2个Reduce程序还在运行。
在这里插入图片描述

2、解决办法

1、首先检查是否是空值过多造成的数据倾斜
生产环境，可以直接过滤掉空值；如果想保留空值，就自定义分区，将空值加随机数打散。最后再二次聚合。
2、能在map阶段提前处理，最好先在Map阶段处理。如：Combiner、MapJoin
3、设置多个reduce个数。

生产队队长

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Hadoop3：MR程序的数据倾斜问题处理

Hadoop
复制链接

扫一扫

专栏目录

生产队队长 CSDN认证博客专家 CSDN认证企业博客

码龄10年

719: 原创

2265: 周排名

944: 总排名

198万+: 访问

: 等级

2万+: 积分

2281: 粉丝

1825: 获赞

246: 评论

2418: 收藏

私信

关注

热门文章

分类专栏

最新评论

高中数学：三角函数-用整体换元法求解一般形式三角函数的相关性质
2301_78981931: 这题不是一数中神奇小猪老师视频里的题嘛
Hive3：常用的内置函数
穷苦书生_万事愁: 博主的这篇文章让我对Hive3常用的内置函数有了全新的认识。文章中的细节描写非常到位，展现出博主深厚的专业功底。通过阅读这篇博文，我学到了很多有价值的知识，对自己的学习也有了更清晰的方向。期待博主未来能够持续分享更多类似的优质文章，希望能够得到博主的指导，共同进步。再次感谢博主的分享和支持！
Hive3：识别内部表、外部表及相互转换
穷苦书生_万事愁: 博主的文章对于Hive3中识别内部表、外部表及相互转换的讲解非常深入，让我对这个主题有了全新的认识。文章中的细节描写非常到位，让我感受到了博主的深厚功底和专业知识。期待博主未来能够持续分享更多类似的好文，同时也希望能够得到博主的指导，共同进步。非常感谢博主的分享和支持！
VMWare安装Windows10虚拟机，无法联网问题解决
weixin_44267824: 我也是win10虚拟机，每次都要禁用网络再启用，才能访问某一个网址（只是这一个），请问这是为啥啊？
Linux：Centos7.x系统，无效的密码问题处理
tangagui: tql，解决问题

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。