Hive-数据倾斜和作业优化

最新推荐文章于 2024-05-14 00:01:36 发布

一曲无痕奈何

最新推荐文章于 2024-05-14 00:01:36 发布

阅读量200

点赞数

分类专栏：大数据文章标签： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41479464/article/details/96701066

版权

大数据专栏收录该内容

31 篇文章 0 订阅

订阅专栏

1，数据倾斜解决：

看下key的分布处理集中的key 原因

1)、key分布不均匀（实际上还是重复）比如 group by 或者 distinct的时候

2)、数据重复，join 笛卡尔积数据膨胀表现任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。单一reduce的记录数与平均记录数差异过大，通常可能达到3倍甚至更多。最长时长远大于平均时长。

解决方案：

1，看下业务上，数据源头能否对数据进行过滤，比如 key为 null的，业务层面进行优化。

2，找到key重复的具体值，进行拆分，hash。异步求和。

Hive调优-作业优化

调整mapper和reducer的数量

太多map导致启动产生过多开销按照输入数据量大小确定reducer数目

set mapred.reduce.tasks= 默认3

dfs -count /分区目录/* hive.exec.reducers.max设置阻止资源过度消耗

参数调节 set hive.map.aggr = true （hive2默认开启） Map 端部分聚合，相当于Combiner hive.groupby.skewindata=true

一曲无痕奈何

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。