Hive解决数据倾斜问题（GC overhead limit exceeded）的有效办法。

最新推荐文章于 2023-08-06 10:30:37 发布

choucai5860

最新推荐文章于 2023-08-06 10:30:37 发布

阅读量1.5k

点赞数

文章标签：大数据 java 数据库

原文链接：https://my.oschina.net/hushenmin/blog/678529

版权

原因分析：在执行hive shell的时候map任务阶段执行到99%，而reduce节点只执行到33%人后就出现了上面的错误。

自我解释：

（1）上面的情况说明，在map阶段执行结束的时候，当垃圾回收器在回收map阶段所产生的对象，因为数据倾斜的原因所导致对象过大，所以不能顺利的回收map阶段所产生的垃圾。

（2）从具体的报错信息可以看出，stage-1已经执行了将近99%，也就是说，在map阶段执行结束的时候，如果在map阶段发生了聚合，虽然会提升效率，但是会使用更加多的内存，如果垃圾回收器压力很大，那么reduce task一直处于waiting状态，之所以这样，是因为container一直需要被回收却回收不了。

一般数据倾斜的解决思路：

增加map任务的堆内存大小并设置标记-清理垃圾回收器：

set mapreduce.map.java.opts=-Xmx3072m -XX:+UseConcMarkSweepGC;（注意： mapreduce.map.memory.mb=4096;必须小于这个值）

set hive.groupby.skewindata =true;(当选项设定为 true，生成的查询计划会有两个 MR Job。第一个 MR Job 中，Map 的输出结果集合会随机分布到 Reduce 中，每个 Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中，从而达到负载均衡的目的；第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中（这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中），最后完成最终的聚合操作。)

sethive.optimize.skewjoin=true;（如果是join 过程出现倾斜应该设置为true）

如果上面的方法解决不了当前数据倾斜的问题就使用下面的方法：

hive.map.aggr=false;（禁用在map中会做部分聚集操作，这样map阶段使用的内存降低，但效率会降低，如果上面的方法能解决问题，不建议使用这种方法）

转载于:https://my.oschina.net/hushenmin/blog/678529

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Hive解决数据倾斜问题（GC overhead limit exceeded）的有效办法。

原因分析：在执行hive shell的时候map任务阶段执行到99%，而reduce节点只执行到33%人后就出现了上面的错误。自我解释：（1）上面的情况说明，在map阶段执行结束的时候，当垃圾回收器在回收map阶段所产生的对象，因为数据倾斜的原因所导致对象过大，所以不能...
复制链接

扫一扫

choucai5860 CSDN认证博客专家 CSDN认证企业博客

码龄7年

0: 原创

-: 周排名

178万+: 总排名

2524: 访问

: 等级

423: 积分

0: 粉丝

0: 获赞

0: 评论

3: 收藏

私信

关注

热门文章

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。