记一次频繁YoungGC生产问题排查思路及解决方案

12 篇文章 0 订阅
2 篇文章 0 订阅

1、问题背景

系统开发了新功能上线,本来上完之后功能验收正常,就在大家都松了一口气安心听技术分享时,晚上6.56分突然收到了系统告警:
在这里插入图片描述

YoungGC时间过长,说实话一开始看到这个告警心里是毫无波澜的,一是因为一次YoungGC时间过长影响不大,二是因为这是内部系统,虽然处理的数据量比较大,但是YoungGC不会影响功能正常运行。

当时心里的第一想法是:应该是刚启动导致系统有些不平稳,过一会儿就好了。

然而过了几分后,第二台主机也开始告警,意识到问题严重性的我赶紧跑上来排查问题。

2、GC日志分析

首先找运维拿到GC日志之后,通过在线分析网站:https://gceasy.io/把日志文件载入分析:

在这里插入图片描述

很明显,基本上都是Allocation Failure引起的GC,表明本次引起GC的原因是因为在年轻代中没有足够的空间能够存储新的数据了

3、Dump文件分析

大概知道了原因,但还是得定位到具体问题,再找运维拿了dump文件之后,本地通过jvusalvm装入dump文件进行分析,发现堆里面有89万个File对象(尴尬的是,这个问题是后来大佬发现的,自己当时看的时候没注意到这里……)
在这里插入图片描述
这时候离真相已经很近了,只要知道是什么地方有大量创建对象这个操作就行了,这时候有两个方法:

  1. 看代码
  2. 通过jstack看看线程的堆栈信息

通过第二种方式很容易就定位到了具体问题
在这里插入图片描述

4、解决方案

既然知道是第三方SDK引起的问题,直接把用到这个SDK地方先给停了,然后把89W个文件rm -rf一把梭,之后系统就恢复平稳运行了。

5、小结

业务原因对接了第三方SDK,类似一个消息队列,由于SDK自身问题导致会把无法消费的消息通过文件的形式暂存在本地,然后通过一个定时任务每十分钟去重新消费这些消息,但是不知道为什么没有消费成功。

这些文件日积月累慢慢影响着GC的性能,最终到达性能监控的阈值,然后告警……

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值