数据倾斜以及相应的解决办法

最新推荐文章于 2024-05-04 20:13:16 发布

一米大六的八个

最新推荐文章于 2024-05-04 20:13:16 发布

阅读量819

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ClearloveXXX/article/details/88387357

版权

数据倾斜就是key分布不均匀，导致分发到不同的reduce上，个别是任务重，导致其他reduce完成，而这些个别的reduce迟迟完成不了

原因：
key分布不均匀：
map端数据倾斜，输入文件太多且大小不一
reduce端数据倾斜，分区器问题
业务数据本身的特征
hive的解决方案：
调节hive的配置参数
设置hive.map.aggr=ture map端部分聚合，相当于Combiner
设置hive.groupby.skewindata = true有数据倾斜时，查询计划生成两个mrjob，第一个job先进行key随机分配处理，先缩小数据量。第二个job在进行真正的group by key处理
SQL语句优化
大小表进行连接的时候，使用map join让小表先进内存，在map端进行reduce
大表接大表的时候，如果是空值造成数据倾斜，那么把空值变成一个字符串加上随机数，把这部分倾斜的数据分发到不同的reduce上
如果count distinct有大量相同特殊值（如空值）空值可以不做处理，直接最后count结果加1即可，或者空值单独拿出来处理，最后再union回去
不同数据类型关联默认的hash操作会按其中的一种类型的值行分配，导致别一种类型全部分发到同一个redduce中，把两个关联的类型转换成相同类型
MR解决方案
spark的解决方法
shuffle
hashshufflemanager spark1.2之前
sortshufflemanager spark1.2之后

一米大六的八个

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据倾斜以及相应的解决办法

数据倾斜就是key分布不均匀，导致分发到不同的reduce上，个别是任务重，导致其他reduce完成，而这些个别的reduce迟迟完成不了原因：key分布不均匀： map端数据倾斜，输入文件太多且大小不一 reduce端数据倾斜，分区器问题业务数据本身的特征hive的解决方案：调节hive的配置参数设置hive.map.agg...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。