数据倾斜

最新推荐文章于 2024-09-06 19:43:02 发布

涮羊肉大王

最新推荐文章于 2024-09-06 19:43:02 发布

阅读量116

点赞数

文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_42576642/article/details/108502031

版权

数据倾斜是指大量相同key被分配到同一分区，导致处理不均，任务执行时部分reduce子任务耗时过长。常见于JOIN、GROUP BY和COUNT DISTINCT操作。解决方法包括选择合适的驱动表、用sum()替代count(distinct)以及调整参数，目标是实现数据在reduce间的均匀分布。

摘要由CSDN通过智能技术生成

数据倾斜

数据倾斜
- 执行
- 原因
- 小结
- 解决
- 总结

数据倾斜

什么是数据倾斜？

1、字面理解是数据偏向于某一方。
2、其实就是大量相同的key被partition分配到一个分区里。

执行

我们在平台执行任务中，卡在一个点持续时间过长，任务进度长时间维持在99%（33%、66%或100%）。任务实际是在执行，查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。因为处理的数据量和其他reduce差异过大，需要时间，莫慌。
Hive的数据倾斜，一般都发生在Sql中Group和On上，而且和数据逻辑绑定比较深。

原因

JOIN（经常遇到）：
其中一个表较小，但是key集中。分发到某一个或几个Reduce上的数据远高于平均值。

大表与大表，但是分桶的判断字段0值或空值过多，这些空值都由一个reduce处理，非常慢。

GROUP BY：
group by 维度过小，某值的数量过多。处理某值的reduce非常耗时。

Count Distinct：
某特殊值过多，处理此特殊值的reduce耗时。

小结

1、key分布不均匀
2、业务数据本身的特性
3、建表时考虑不周
4、某些SQL语句本身就有数据倾斜

解决

1、关于驱动表（主表）的选取，选用join key（id）分布最均匀的表作为驱动表。

最低0.47元/天解锁文章

涮羊肉大王

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

涮羊肉大王 CSDN认证博客专家 CSDN认证企业博客

码龄6年

2: 原创

147万+: 周排名

201万+: 总排名

1199: 访问

: 等级

20: 积分

0: 粉丝

0: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

分类专栏

hql 1篇

最新文章

Hadoop内存超限的解决方法

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。