Hive数据倾斜

最新推荐文章于 2024-05-25 11:32:41 发布

joananjin

最新推荐文章于 2024-05-25 11:32:41 发布

阅读量683

点赞数 2

分类专栏： Hadoop 文章标签： hive 数据倾斜

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/joananjin/article/details/80009411

版权

一、数据倾斜产生原因

1.操作

join

一个表很小，但是key集中；分发到某一个或者几个Reduce上的数据远高于平均值。
大表与大表，但是字段的空值很多；这些空值都由一个reduce进行操作，速度非常的慢。

group by

数据维度非常的小，某值的数据非常多；处理某值的reduce非常耗时。

count distinct

某特殊值多；处理此特殊值的reduce非常的耗时。

2.原因

（1）key值分布不均匀。

（2）业务数据本身的问题。

（3）建表时候考虑不周。

（4）某些sql语句的问题，本身就有数据倾斜的问题。

3.表现

各个reduce处理数据所需时间差异性很大。

二、数据倾斜的解决方案

1.参数调节

hive.map.agge=true

Map端部分聚合，相当于Combiner

hive.groupby.skewindata=true

有数据倾斜的时候进行负载均衡，当选项设定为true，生成的查询计划会有两个MR Job中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce中，从而达到负载均衡的目的；第二个MR Job再根据预处理按照Group By Key分布到Reduce中（这个过程可以保证相同的Group By Key

最低0.47元/天解锁文章

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Hive数据倾斜

一、数据倾斜产生原因1.操作join一个表很小，但是key集中；分发到某一个或者几个Reduce上的数据远高于平均值。大表与大表，但是字段的空值很多；这些空值都由一个reduce进行操作，速度非常的慢。group by数据维度非常的小，某值的数据非常多；处理某值的reduce非常耗时。count distinct某特殊值多；处理此特殊值的reduce非常的耗时。2.原因（1）key值分布不均匀。（...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。