hive解决数据倾斜问题_Hive数据倾斜和解决办法

最新推荐文章于 2024-05-25 11:32:41 发布

Moonkissu

最新推荐文章于 2024-05-25 11:32:41 发布

阅读量1k

点赞数

文章标签： hive解决数据倾斜问题

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36209301/article/details/111974378

版权

转自：https://blog.csdn.net/xinzhi8/article/details/71455883

操作：

关键词

情形

后果

Join

其中一个表较小，但是key集中

分发到某一个或几个Reduce 上的数据远高于平均值

大表与大表，但是分桶的判断字段0值或空值过多

这些空值都由一个reduce处理非常慢

group by

group by 维度过小，某值的数量过多

处理某值的reduce非常耗时

Count Distinct

某特殊值过多

处理此特殊值的reduce耗时

原因：

1)、key分布不均匀

2)、业务数据本身的特性

3)、建表时考虑不周

4)、某些SQL语句本身就有数据倾斜

解决方案

1.参数调节：

hive.map.aggr = true

Map 端部分聚合，相当于Combiner

hive.groupby.skewindata=true(万能药膏)

有数据倾斜的时候进行负载均衡，当选项设定为 true，生成的查询计划会有两个 MR Job。第一个 MR Job 中，Map 的输出结果集合会随机分布到 Reduce 中，每个 Reduce 做部分聚合操作，

并输出结果，这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中，从而达到负载均衡的目的；第二个 MR Job 再根据预处理的数据结果按照 Group By Ke

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
hive解决数据倾斜问题_Hive数据倾斜和解决办法

转自：https://blog.csdn.net/xinzhi8/article/details/71455883操作：关键词情形后果Join其中一个表较小，但是key集中分发到某一个或几个Reduce 上的数据远高于平均值大表与大表，但是分桶的判断字段0值或空值过多这些空值都由一个reduce处理非常慢group bygroup by 维度过小，某值的数量过多处理某值的reduce非常耗时Cou...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。