【大数据面试常问问题】----Hive表关联，数据倾斜问题解决?

最新推荐文章于 2024-05-25 11:32:41 发布

c美食家

最新推荐文章于 2024-05-25 11:32:41 发布

阅读量639

点赞数 1

分类专栏：大数据面试

本文链接：https://blog.csdn.net/axxx6666/article/details/103943562

版权

大数据面试专栏收录该内容

13 篇文章 2 订阅

订阅专栏

数据倾斜原因:

Map端输出数据按照key hash分配到reduce中，数据分配不均匀。还可能是因为:建表不规范、业务本身的问题、Hql语句的问题都可能导致数据倾斜。

解决方式:

1.负载均衡

设置两个参数
set hive.map.aggr=true Map端输出做一个局部聚合，相当于combiner
set hive.groupby.skewindata=true 数据倾斜时，做负载均衡

2.Hql调节

join的时候，选取key分部均匀的表作为驱动表；做好列裁剪和filter操作(如果进行了group by,需要的列就查询，不需要的列不要查询),过滤条件应该在join之前操作
大表join小表:小表放入内存当中，也就是每个节点都存放一个这个小表，Map进行join，避免Reduce端join
大表join大表:遇见很多null值，需要给null值随机分配一个值，比如字符串+数字
count(distinct)：尽量使用count...group by 代替。也可以将count (distinct)分开，也就是说先distinct再count操作，分成了两个MR Job。

每篇一言: 我们总说身不由己，可己不由心，身又岂会由己。

c美食家

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【大数据面试常问问题】----Hive表关联，数据倾斜问题解决?

数据倾斜原因:Map端输出数据按照key hash分配到reduce中，数据分配不均匀。还可能是因为:建表不规范、业务本身的问题、Hql语句的问题都可能导致数据倾斜。解决方式:1.负载均衡设置两个参数set hive.map.aggr=true Map端输出做一个局部聚合，相当于combinerset hive.groupby.skewindata=true 数据倾斜时，做负载均衡...
复制链接

扫一扫