Hive解决数据倾斜方法

别烦别烦

已于 2022-09-22 16:53:31 修改

阅读量1.2k

点赞数

文章标签： hive hadoop 数据仓库大数据

于 2022-09-22 16:16:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_63172805/article/details/126994272

版权

根本原因：数据过于集中。解决的基本思路：打散。

容易产生数据倾斜的几种情况：count distinct、group by key、Join。

count distinct ：

数据量小的时候无所谓，数据量大的情况下，由于COUNT DISTINCT操作需要用一个Reduce Task来完成，这一个Reduce需要处理的数据量太大，就会导致整个Job很难完成，一般COUNT DISTINCT使用先GROUP BY再COUNT的方式替换。

group by key：

两种解决方法：第一种解决方案1）设置参数：这里有两个参数。i）开启map端聚合。
ii）有数据倾斜的时候开启负载均衡。开启了负载均衡以后，会生成两个mr，第一个mr会打散数据，也就是随机分发数据，进行局部聚合；第二个mr根据group by key的逻辑完成全局聚合。

2）手动优化sql：

两阶段聚合，加盐局部聚合，去盐全局聚合。（利用random构造辅助列，先group by key,random,进行局部聚合；再group by key完成全局聚合）。

Join：

查看日志找到倾斜的key。

如果倾斜的key是脏数据，直接过滤掉；
增加reduce个数；
如果两个表join的时候，一个表为小表，可以用mapjoin做。
如果是两个大表join，并且倾斜的 key 有实际的意义，可以将它们单独抽取出来，对应的行单独存入临时表中，然后打上一个较小的随机数前缀（比如0~9），最后再进行聚合。
设置hive.optimize.skewjoin=true。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive解决数据倾斜方法

数据量小的时候无所谓，数据量大的情况下，由于COUNT DISTINCT操作需要用一个Reduce Task来完成，这一个Reduce需要处理的数据量太大，就会导致整个Job很难完成，一般COUNT DISTINCT使用。开启了负载均衡以后，会生成两个mr，第一个mr会打散数据，也就是随机分发数据，进行局部聚合；第二个mr根据group by key的逻辑完成全局聚合。容易产生数据倾斜的几种情况：count distinct、group by key、Join。两阶段聚合，加盐局部聚合，去盐全局聚合。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。