hive数据倾斜解决方法

最新推荐文章于 2024-02-10 18:58:14 发布

sun_shang

最新推荐文章于 2024-02-10 18:58:14 发布

阅读量5.8k

点赞数 5

分类专栏： hive优化文章标签： hive 数据倾斜

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sun_shang/article/details/77927505

版权

hive优化专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Hive倾斜—不患寡而患不均

一、数据倾斜的原因

Hive倾斜的原因很大部分是由于sql中的join语句与group by语句。

原因：对于普通的join操作，会在map端根据key的hash值，shuffle到某一个reduce上去，在reduce端做join连接操作，内存中缓存join左边的表，遍历右边的表，依次做join操作。所以在做join操作时候，将数据量多的表放在join的右边。

当数据量比较大，并且key分布不均匀，大量的key都shuffle到一个reduce上了，就出现了数据的倾斜。

二、数据倾斜的现象

map/reduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多（有时是百倍或者千倍之多），这条key所在的reduce节点所处理的数据量比其他节点就大很多，从而导致某几个节点迟迟运行不完，此称之为数据倾斜。

hive在跑数据时经常会出现数据倾斜的情况，使的作业经常reduce完成在99%后一直卡住，最后的１%花了几个小时都没跑完，这种情况就很可能是数据倾斜的原因。

举例：

比如当某个购物网站一天内按照城市ID来区分的话，ID为1的城市一天卖出去10W个商品，ID为2的卖出去200个商品，ID为3的卖出去50个商品。

Table A的数据含有城市ID、城市名，table B的数据含有城市ID、订单号排序（分别为0-100000（订单100000个）、100000-100200（订单200个）、100200-100250（订单50个））。

当我们用join语法的时候key值应该为1、2、0，因此reduce=0的join会处理10W数据，其他的为200、50。这会造成数据倾斜。

当我们用group by语法与join类似。

三、数据倾斜的优化

1.如果是join 过程中出现倾斜应将此项设置为true。

hive.optimize.skewjoin.compiletime=true;

不影响结果可以考虑过滤空值

<property>

<name>hive.optimize.skewjoin.compiletime</name>

<value>false</value>

</property>

join（数据倾斜）

在进行两个表join的过程中，由于hive都是从左向右执行，要注意讲小表在前，大表在后（小表会先进行缓存）。

2、如果是group by过程出现倾斜应将此项设置true。

hive.groupby.skewindata=true;

<property>

<name>hive.groupby.skewindata</name>

<value>false</value>

<description>Whether there is skew in data to optimize group byqueries</description>

</property>

问题:为什么默认为false?

因为开启为true后，会至少开启两个MapReduce，执行时间比开启一个长，因此最好出现数据倾斜之后在开启。

hive.optimize.skewjoin.compiletime=true; 如果是join过程出现倾斜应该设置为true

此时会将join语句转化为两个mapreduce任务，第一个会给jion字段加随机散列

set hive.skewjoin.key=100000; 这个是join的键对应的记录条数超过这个值则会进行优化。

关注

5
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
hive数据倾斜解决方法

Hive倾斜—不患寡而患不均一、数据倾斜的原因Hive倾斜的原因很大部分是由于sql中的join语句与group by语句。原因：对于普通的join操作，会在map端根据key的hash值，shuffle到某一个reduce上去，在reduce端做join连接操作，内存中缓存join左边的表，遍历右边的表，依次做join操作。所以在做join操作时候，将数据量多的表放在join的右边。
复制链接

扫一扫

专栏目录

sun_shang CSDN认证博客专家 CSDN认证企业博客

码龄7年

19: 原创

33万+: 周排名

102万+: 总排名

14万+: 访问

: 等级

781: 积分

9: 粉丝

41: 获赞

9: 评论

80: 收藏

私信

关注

热门文章

分类专栏

最新评论

Device not managed by NetworkManager or unavailable解决方法
_白夜行_: 赞一个就是因为这个原因我的解决了谢谢大佬！
mySql中Truncate的用法
Deepturn: 膜拜技术大佬
spring配置文件最全面的详解
是阿超: 写的很好很详细，感谢博主的分享~~~
mySql中Truncate的用法
weixin_45590970: 学习了，感谢分享
Hbase数据存储图解与数据检索流程
宝罗Paul: 4、hbase表数据的读流程：（根据rowkey读）这一节的“3、根据meta表的元数据信息（某张表有几个region及region如何分配及每个reigon的startkey和stopkey），client找到当前要写入的表对应的region及所在regionserver信息 ”有误，请作者抽空更正一下 ^_^

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。