记一次频繁YoungGC生产问题排查思路及解决方案

最新推荐文章于 2024-08-01 14:49:02 发布

我没有在划水

最新推荐文章于 2024-08-01 14:49:02 发布

阅读量7.2k

点赞数 4

分类专栏： jvm java 随笔文章标签： java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/foxexception/article/details/115748460

版权

随笔同时被 3 个专栏收录

14 篇文章 1 订阅

订阅专栏

12 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

1、问题背景

系统开发了新功能上线，本来上完之后功能验收正常，就在大家都松了一口气安心听技术分享时，晚上6.56分突然收到了系统告警：
在这里插入图片描述

YoungGC时间过长，说实话一开始看到这个告警心里是毫无波澜的，一是因为一次YoungGC时间过长影响不大，二是因为这是内部系统，虽然处理的数据量比较大，但是YoungGC不会影响功能正常运行。

当时心里的第一想法是：应该是刚启动导致系统有些不平稳，过一会儿就好了。

然而过了几分后，第二台主机也开始告警，意识到问题严重性的我赶紧跑上来排查问题。

2、GC日志分析

首先找运维拿到GC日志之后，通过在线分析网站：https://gceasy.io/把日志文件载入分析：

在这里插入图片描述

很明显，基本上都是Allocation Failure引起的GC，表明本次引起GC的原因是因为在年轻代中没有足够的空间能够存储新的数据了。

3、Dump文件分析

大概知道了原因，但还是得定位到具体问题，再找运维拿了dump文件之后，本地通过jvusalvm装入dump文件进行分析，发现堆里面有89万个File对象（尴尬的是，这个问题是后来大佬发现的，自己当时看的时候没注意到这里……）
在这里插入图片描述
这时候离真相已经很近了，只要知道是什么地方有大量创建对象这个操作就行了，这时候有两个方法：

看代码
通过jstack看看线程的堆栈信息

通过第二种方式很容易就定位到了具体问题
在这里插入图片描述

4、解决方案

既然知道是第三方SDK引起的问题，直接把用到这个SDK地方先给停了，然后把89W个文件rm -rf一把梭，之后系统就恢复平稳运行了。

5、小结

业务原因对接了第三方SDK，类似一个消息队列，由于SDK自身问题导致会把无法消费的消息通过文件的形式暂存在本地，然后通过一个定时任务每十分钟去重新消费这些消息，但是不知道为什么没有消费成功。

这些文件日积月累慢慢影响着GC的性能，最终到达性能监控的阈值，然后告警……

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。