Hive数据倾斜判断依据及解决办法

「已注销」

已于 2022-09-27 00:11:15 修改

阅读量641

点赞数

文章标签： hive 大数据 spark

于 2022-09-27 00:08:39 首次发布

本文链接：https://blog.csdn.net/baidu_40441411/article/details/127063483

版权

本文介绍了Hive数据倾斜的原因与判断方法，包括通过任务执行时间和Dr.Elephant监控。针对Group by聚合和Join倾斜，提出了解决方案，如map端聚合、分离查询和参数调优。同时，阐述了Dr.Elephant在自动检测数据倾斜中的作用和计算步骤。

摘要由CSDN通过智能技术生成

定义

在分布式系统中，结果集合往往按照分片（slices）存储和处理，数据倾斜（Data Skew）主要是指数据分片的不均匀分布。不同的组件会产生不同的倾斜。

组件	倾斜现象
Kafka	Kafka 数据倾斜：大量数据被发送到了Kafka 中一个partition。
Spark	Spark 数据倾斜：大量数据被发送到了Spark 的一个task。
Hive	Hive 数据倾斜：大量数据被发送到了Hive 的一个reduce。分为Mapper Skew和Reducer Skew
Redis	大量数据都存到了Redis 集群中的一个节点中

如何判断是否发生了数据倾斜

方法1：通过时间判断：如果某个 reduce 的时间比其他 reduce 时间长的多，

分析执行日志，作业在reduce阶段停留在99%，很长时间完成不了，很可能不分任务执行时间较短，部分任务执行时间较长。下图来自于Dr.drelephant，GroupA 110个任务平均每个5MB，而Group 25个任务平均128MB。时间倾斜，GroupA 110个任务耗时6min，GroupB共25个任务，每个128MB，其余运行时间是26分钟。
Mapper Skew

方法2：分析执行日志，作业在reduce阶段停留在99%，很长时间完成不了，很可能发生了数据倾斜。

如何解决？

Group by 聚合倾斜

原因

分组的维度过少，每个维度的值过多，导致处理某值的reduce耗时很久；
对一些类型统计的时候某种类型的数据量特别多，其他的数据类型特别少。当按照类型进行group by的时候，会将相同的group by字段的reduce任务需要的数据拉取到同一个节点进行聚合，而当其中每一组的数据量过大时，会出现其他组的计算已经完成而这个reduce还没有计算完成，其他的节点一直等待这个节点的任务执行完成，所以会一直看到map 100% reduce99%的情况；

解决办法

-- 是否开启map的聚合(默认为true)
set h

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
Hive数据倾斜判断依据及解决办法

Hive数据倾斜，Dr.Elephant，Group By倾斜，Join倾斜
复制链接

扫一扫