hive优化之数据倾斜

最新推荐文章于 2022-10-11 21:36:17 发布

weiha666

最新推荐文章于 2022-10-11 21:36:17 发布

阅读量192

点赞数 1

分类专栏： hive

本文链接：https://blog.csdn.net/weiha666/article/details/103687027

版权

什么是数据倾斜

map reduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，进度条卡在99%这里很久。（spark 程序也是类似，某几个task处理的数据明显比其他task多，而且时间很久）这是因为某一个key的条数比其他key多很多（有时是百倍或者千倍之多），这条key所在的reduce节点所处理的数据量比其他节点就大很多，从而导致某几个节点迟迟运行不完。map端一般是不会有数据倾斜发生的，他只负责读取数据。reduce是发生数据倾斜的常客。

数据倾斜的现象

1、任务日志进度长度为99%，在日志监控进度条显示只有几个reduce进度一直没有完成。

2、某一reduce处理时长>平均处理时长

3、job数过多

产生数据倾斜的场景

1、group by连用
2、count(distinct)
3、join 主要是reduce join会产生数据倾斜

具体场景分析

1）join时null值过多：

以log日志为例，其中有一个字段为userid,但是userid的null值太多，在使用userid进行join时，所有的userid=null的数据都会到一个reduce中，这个reducetask数据量很大，就会产生数据倾斜。
解决方法1：

#null值不参与连接

select field1,field2,field3…
from log a left join user b on a.userid is not null and a.userid=b.
userid
union select field1,field2,field3 from log where userid is null;

解决方法2：
#将null值进行散列

select  a.*

最低0.47元/天解锁文章

weiha666

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive优化之数据倾斜

什么是数据倾斜map reduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，进度条卡在99%这里很久。（spark 程序也是类似，某几个task处理的数据明显比其他task多，而且时间很久）这是因为某一个key的条数比其他key多很多（有时是百倍或者千倍之多），这条key所在的reduce节点所处理的数据量比其他节点就大很...
复制链接

扫一扫