记录一次HiveSQL执行中发生 GC overhead limit exceeded的解决过程

文章讲述了在使用HiveSQL通过MapReduce执行查询时遇到的GC回收超时问题,尝试增加内存、调整map数量和关闭Combine功能后,发现Parquet文件的压缩和预聚合导致内存需求过大,最终解决策略是单个map处理大文件并分配足够的内存。

首先,问题是这样的,执行一个HiveSQL的过程中在Map阶段发生了GC回收超时,使用的引擎为MapReduce,sql语句如下:

insert into ads_ais_voyages02 partition (dt)
select *
from ads_ais_voyages_tmp;

默认情况下,map和reduce阶段的内存都设置为2G(一般情况下都是够用的),运行一段时间后报错

在这里插入图片描述

看报错信息,gc回收超时,那先试着把内存加到4G

set mapreduce.reduce.memory.mb=4096;
set mapreduce.reduce.java.opts=-Xmx2048m;
set mapred.reduce.slowstart.completed.maps = 0.95;
set mapreduce.map.memory.mb=4096;
set mapreduce.map.java.opts=-Xmx2048m;

执行sql,发现还是报同样的错误

在这里插入图片描述
那就再将内存加到6G

set mapreduce.reduce.memory.mb=6144;
set mapreduce.reduce.java.opts=-Xmx3072m;
set mapred.reduce.slowstart.completed.maps = 0.95;
set mapreduce.map.memory.mb=6144;
set mapreduce.map.java.opts=-Xmx3072m;

一执行,发现还是报错,这不应该呀

在这里插入图片描述

真是令人头疼,既然加内存不管用,那就试着将map数量增多,每个map处理的数据量少了,应该就能解决了

set mapred.max.split.size=8192000;
set mapred.min.split.size= 4096000;
set mapred.min.split.size.per.node=4096000;
set mapred.min.split.size.per.rack=4096000;

一执行,结果还是报错,这有点不科学

在这里插入图片描述

既然加内存不管用,那我们来查看数据源的大小,再来想办法

在这里插入图片描述

20个parquet文件,最大的不超过120MB,讲道理不应该出现堆空间不足。但是这个parquet文件它本身进行了压缩再加上预聚合,有可能需要非常大的内存处理。既然这样,那就关掉Hive默认开启的Combine,让一个map处理一个parquet文件,再给他6G的内存,这样应该是万无一失了。

在这里插入图片描述
果然sql执行成功,看来就是因为parquet文件太大,导致需要大量内存,而默认combine的开启无疑会雪上加霜,几个parquet文件加起来需要超级大的内存

### Java中解决GC Overhead Limit Exceeded错误的具体方法 `java.lang.OutOfMemoryError: GC overhead limit exceeded` 错误表明JVM在垃圾回收上花费了过多的时间(超过98%的CPU时间),但仅能回收少量内存(少于2%的堆空间)。以下是几种有效的解决方案: #### 1. **增加堆内存** 通过调整JVM参数来增大可用堆内存是一种常见的做法。可以通过以下命令设置最大堆大小和初始堆大小,并启用G1垃圾收集器: ```bash java -Xmx2048m -Xms1024m -XX:+UseG1GC YourApplication ``` 此操作可以缓解因堆内存不足而导致的频繁垃圾回收问题[^2]。 #### 2. **优化代码逻辑** - **检查内存泄漏** 需要特别关注静态集合类(如 `ArrayList`, `HashMap`)、缓存以及长时间存活的对象引用。如果这些对象未被正确释放,可能导致内存占用过高。 - **及时关闭资源** 数据库连接、文件流以及其他外部资源应始终在其使用完毕后立即关闭,避免不必要的内存消耗。 - **减少临时对象创建** 尤其是在循环体内,尽量避免创建大量的短生命周期对象。例如,在字符串拼接时优先使用 `StringBuilder` 而非简单的 `+` 运算符[^2]。 #### 3. **改进数据结构设计** 当涉及大规模数据处理时,选择合适的数据结构至关重要。例如,对于大容量的键值映射场景,默认构造函数可能引发性能瓶颈;因此建议显式指定哈希表的初始化容量及其负载因子以降低扩容频率: ```java Map<String, String> map = new HashMap<>(initialCapacity, loadFactor); ``` #### 4. **利用诊断工具分析内存状况** 为了深入理解应用程序的实际运行情况,可借助专门的调试工具完成进一步排查工作: - 使用 `jmap` 导出当前进程的堆转储快照并导入至第三方解析软件(比如 Eclipse MAT 或 VisualVM)进行可视化展示; ```bash jmap -dump:live,format=b,file=heap.bin <PID> ``` - 利用 JConsole 和 VisualVM 实现动态监测功能,观察各代区分布趋势变化规律以便定位潜在风险源[^2]。 #### 5. **调优垃圾回收算法配置** 除了默认采用 Parallel Scavenge 收集方式外,还可以尝试切换到其他更适合特定业务需求类型的清理模式,像 CMS (Concurrent Mark Sweep) 或者 G1 (Garbage First),具体实现如下所示: ```bash # 启动CMS并发标记清除收集器 java ... -XX:+UseConcMarkSweepGC ... # 开启G1垃圾收集器支持 java ... -XX:+UseG1GC ... ``` 以上措施能够显著改善由高比例垃圾回收所引起的异常现象发生概率,从而保障系统的稳定性和响应速度[^1][^2]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值