记录一次HiveSQL执行中发生 GC overhead limit exceeded的解决过程

首先,问题是这样的,执行一个HiveSQL的过程中在Map阶段发生了GC回收超时,使用的引擎为MapReduce,sql语句如下:

insert into ads_ais_voyages02 partition (dt)
select *
from ads_ais_voyages_tmp;

默认情况下,map和reduce阶段的内存都设置为2G(一般情况下都是够用的),运行一段时间后报错

在这里插入图片描述

看报错信息,gc回收超时,那先试着把内存加到4G

set mapreduce.reduce.memory.mb=4096;
set mapreduce.reduce.java.opts=-Xmx2048m;
set mapred.reduce.slowstart.completed.maps = 0.95;
set mapreduce.map.memory.mb=4096;
set mapreduce.map.java.opts=-Xmx2048m;

执行sql,发现还是报同样的错误

在这里插入图片描述
那就再将内存加到6G

set mapreduce.reduce.memory.mb=6144;
set mapreduce.reduce.java.opts=-Xmx3072m;
set mapred.reduce.slowstart.completed.maps = 0.95;
set mapreduce.map.memory.mb=6144;
set mapreduce.map.java.opts=-Xmx3072m;

一执行,发现还是报错,这不应该呀

在这里插入图片描述

真是令人头疼,既然加内存不管用,那就试着将map数量增多,每个map处理的数据量少了,应该就能解决了

set mapred.max.split.size=8192000;
set mapred.min.split.size= 4096000;
set mapred.min.split.size.per.node=4096000;
set mapred.min.split.size.per.rack=4096000;

一执行,结果还是报错,这有点不科学

在这里插入图片描述

既然加内存不管用,那我们来查看数据源的大小,再来想办法

在这里插入图片描述

20个parquet文件,最大的不超过120MB,讲道理不应该出现堆空间不足。但是这个parquet文件它本身进行了压缩再加上预聚合,有可能需要非常大的内存处理。既然这样,那就关掉Hive默认开启的Combine,让一个map处理一个parquet文件,再给他6G的内存,这样应该是万无一失了。

在这里插入图片描述
果然sql执行成功,看来就是因为parquet文件太大,导致需要大量内存,而默认combine的开启无疑会雪上加霜,几个parquet文件加起来需要超级大的内存

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值