2021-04-29

最新推荐文章于 2023-02-10 10:34:56 发布

The Great Ant

最新推荐文章于 2023-02-10 10:34:56 发布

阅读量105

点赞数

分类专栏： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37698495/article/details/116278031

版权

hive 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Hive解决数据倾斜方法

1）怎么产生的数据倾斜？

（1）不同数据类型关联产生数据倾斜

情形：比如用户表中user_id字段为int，log表中user_id字段string类型。当按照user_id进行两个表的Join操作时。

解决方式：把数字类型转换成字符串类型

select * from users a

left outer join logs b

on a.usr_id = cast(b.user_id as string)

bug记录：https://www.jianshu.com/p/2181e00d74dc

（2）控制空值分布

在生产环境经常会用大量空值数据进入到一个reduce中去，导致数据倾斜。

解决办法：

自定义分区，将为空的key转变为字符串加随机数或纯随机数，将因空值而造成倾斜的数据分不到多个Reducer。

注意：对于异常值如果不需要的话，最好是提前在where条件里过滤掉，这样可以使计算量大大减少

2）解决数据倾斜的方法？

（1）空key判断，去除无用null值

（2）group by

注：group by 优于distinct group

解决方式：采用sum() group by的方式来替换count(distinct)完成计算。

（3）mapjoin

（4）开启数据倾斜时负载均衡

set hive.groupby.skewindata=true;

思想：就是先随机分发并处理，再按照key group by来分发处理。

操作：当选项设定为true，生成的查询计划会有两个MRJob。

第一个MRJob中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同的GroupBy Key有可能被分发到不同的Reduce中，从而达到负载均衡的目的；

第二个MRJob再根据预处理的数据结果按照GroupBy Key分布到Reduce中（这个过程可以保证相同的原始GroupBy Key被分布到同一个Reduce中），最后完成最终的聚合操作。

点评：它使计算变成了两个mapreduce，先在第一个中在shuffle过程partition时随机给 key打标记，使每个key随机均匀分布到各个reduce上计算，但是这样只能完成部分计算，因为相同key没有分配到相同reduce上。

所以需要第二次的mapreduce，这次就回归正常shuffle，但是数据分布不均匀的问题在第一次mapreduce已经有了很大的改善，因此基本解决数据倾斜。因为大量计算已经在第一次mr中随机分布到各个节点完成。

（5）设置多个reduce个数

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-04-29

Hive解决数据倾斜方法1）怎么产生的数据倾斜？（1）不同数据类型关联产生数据倾斜情形：比如用户表中user_id字段为int，log表中user_id字段string类型。当按照user_id进行两个表的Join操作时。解决方式：把数字类型转换成字符串类型select * from users aleft outer join logs bon a.usr_id = cast(b.user_id as string)bug记录：https://www.jianshu.com/p/2181e
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。