大数据高频面试题之Hive怎么解决数据倾斜

最新推荐文章于 2023-08-05 22:39:05 发布

大数据面试指南

最新推荐文章于 2023-08-05 22:39:05 发布

阅读量131

点赞数

分类专栏： Hive 大数据 hadoop 文章标签： hive 大数据大数据面试 hive优化 hive面试题

本文链接：https://blog.csdn.net/czxylzl/article/details/115666050

版权

hadoop 同时被 3 个专栏收录

46 篇文章 0 订阅

订阅专栏

大数据

37 篇文章 1 订阅

订阅专栏

Hive

23 篇文章 0 订阅

订阅专栏

场景： MR中,shuffle阶段的一个key值对应了很多值,那么就会将这么多值分到一个分区中hive中,两个表做join maptask中一个任务处理的时间明显大于其他task的时间就是出现了数据倾斜的问题

开启数据倾斜时负载均衡
set hive.groupby.skewindata=true;
思想：就是先随机分发并处理，再按照 key group by 来分发处理。
操作：当选项设定为 true，生成的查询计划会有两个 MRJob。
第一个 MRJob 中，Map 的输出结果集合会随机分布到 Reduce 中，每个 Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的 GroupBy Key 有可能被分发到不同的Reduce 中，从而达到负载均衡的目的；

第二个 MRJob 再根据预处理的数据结果按照 GroupBy Key 分布到 Reduce 中（这个过程可以保证相同的原始 GroupBy Key 被分布到同一个 Reduce 中），最后完成最终的聚合操作。

总结：它使计算变成了两个 mapreduce，先在第一个中在 shuffle 过程 partition 时随机给 key 打标记，使每个 key 随机均匀分布到各个reduce 上计算，但是这样只能完成部分计算，因为相同 key 没有分配到相同 reduce 上。所以需要第二次的 mapreduce,这次就回归正常 shuffle,但是数据分布不均匀的问题在第一次 mapreduce 已经有了很大的改善，因此基本解决数据倾斜。因为大量计算已经在第一次mr 中随机分布到各个节点完成。