hive数据倾斜的原因和解决方法

最新推荐文章于 2024-07-29 14:23:40 发布

次第花开缓缓归来

最新推荐文章于 2024-07-29 14:23:40 发布

阅读量1.6k

点赞数

分类专栏： hadoop 文章标签： hive hadoop 数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011919863/article/details/125133304

版权

hadoop 专栏收录该内容

3 篇文章 1 订阅

订阅专栏

1、数据倾斜表现：

任务执行时，有1个或几个任务的进度长时间维持在99%，导致任务无法结束。

2、数据倾斜类型和解决方案

（1）join 倾斜

大小表join

使用map join让小的维度表（1000条以下的记录条数）先进内存。在map端完成reduce。

大表Join大表

空值：把空值的key变成一个字符串加上随机数，把倾斜的数据分到不同的reduce上，由于null值关联不上，处理后并不影响最终结果。

数据量过大的key值：分成两部分分别join，然后union all到一起。

（2）groupby 倾斜

hive.map.aggr = true // Map 端部分聚合，相当于Combiner；
hive.groupby.skewindata=true //

有数据倾斜的时候进行负载均衡，当选项设定为 true，生成的查询计划会有两个 MR Job。第一个 MR Job 中，Map 的输出结果集合会随机分布到 Reduce 中，每个 Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中，从而达到负载均衡的目的；第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中（这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中），最后完成最终的聚合操作。

使用两段聚合

两阶段聚合指的是先局部聚合再全局聚合。局部聚合时候给每个key值加上随机前缀进行打散，原本相同的key值会变成不同的新key值，便可以让原来由一个task处理的数据根据加上随机前缀后的新key值分散到多个Task上做聚合，从而缓解单个task处理数据量过多的问题。再去除随机前缀做全局聚合，既可以得到最终结果。

（3）count distinct 倾斜

count distinct时，将值为空的情况单独处理，如果是计算count distinct，可以不用处理，直接过滤，在最后结果中加1。如果还有其他计算，需要进行group by，可以先将值为空的记录单独处理，再和其他计算结果进行union。

次第花开缓缓归来

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

次第花开缓缓归来 CSDN认证博客专家 CSDN认证企业博客

码龄11年

28: 原创

12万+: 周排名

40万+: 总排名

8万+: 访问

: 等级

567: 积分

335: 粉丝

35: 获赞

6: 评论

185: 收藏

私信

关注

热门文章

分类专栏

统计学 2篇
思维题 1篇
数据分析思维 1篇
生活 2篇
leecode 8篇
业务
机器学习 2篇
java 5篇
python 12篇
mysql 7篇
生物信息 2篇
Linux 1篇
读书笔记
hadoop 3篇

最新评论

sql复杂场景：求连续在线天数
魅影猎鹰: 其实你把博主的date_d字段换成是聊天日期距离某一固定日期的差值就可以解决了,比如这样:date_d = DATEDIFF(chat_date,'1970-01-01')
sql复杂场景：求连续在线天数
Flzzzz0506: 如果是跨月呢
记PAM250矩阵的自乘
m0_70521326: 就是1572吧
记PAM250矩阵的自乘
Aumaric Gosh Lee: 应该是15720个突变，原文不知道怎么回事差了一个数量级
python中数组、向量、矩阵的区别
柒贰玖的大西瓜: 看了很多网上的区别，感觉博主说清楚了！很多人把一维数组和向量混为一谈，但是其实向量和矩阵都是二维数组，抓住这一点就比较区分了。才从Matlab转过来Python要注意区分这个区别。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。