记录最近一次线上内存泄漏排查

lanicc

已于 2024-10-11 13:58:36 修改

阅读量327

点赞数 2

文章标签： java

于 2024-10-10 10:52:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26824159/article/details/142814570

版权

线上应用GC异常，为了降低影响，期间我们重启了几次。但是发现，重启后，很快老年代就被打满，无法回收。
在这里插入图片描述

dump内存快照

使用jmap，报错没权限
在这里插入图片描述
后面使用arthas执行了heapdump

分析内存使用情况

使用mat(memoryAnalyzer Tool)分析内存使用情况

很明显就是出现了内存泄漏

在这里插入图片描述

ZkEventThread中存在大量的ZkEvent

ZkEventThread中维护了一个ZkEvent的队列，ZkEventThread会依次从该队列中取ZkEvent，调用每个ZkEvent的监听。
在这里插入图片描述

ZkEvent里都是什么

查看ZkEvent的内容，发现大量的
Data of xxx changed sent to xxx，对照ZkClienta的代码，不难发现，这些都是Zk节点的DataChange事件，事件对应的zk节点都是同一个

这些ZkEvent的实现，都是ZkClient中的匿名类，下面的截图内容，对应的是ZkEvent的description属性

在这里插入图片描述

ClientRunningMonitor$1

从上图和下图都可以看到，ZkEvent对应的listener都是ClientRunningMonitor$1，而且是同一个地址
看一下ClientRunningMonitor$1的引用

ZkEvent中引用了ClientRunningMonitor$1

在这里插入图片描述

ZkClient中的dataListener引用了ClientRunningMonitor$1

在这里插入图片描述

查看ClientRunningMonitor$1的Path to GC ROOTS

结果和上面的一直，只有ZkEvent和ZkClient中的dataListener引用了
在这里插入图片描述

排查方向

经过对内存使用、代码分析，
发现CanalClusterConnector已经没有引用，但是ClientRunningMonitor$1没有取消订阅。

后续的排查方向：

为什么会出现大量的zk节点变更事件
为什么会出现CanalClusterConnector已经关闭，但ClientRunningMonitor$1没有取消订阅

问题发生的原因

为什么会出现大量的zk节点变更事件

ClientRunningMonitor内发生了循环
在这里插入图片描述

为什么ClientRunningMonitor没有取消订阅

查看ClusterCanalConnector.connect的代码，
currentConnector.connect();会调用上述的initRunning，产生循环，抛出异常
发生异常后，currentConnector.disconnect();会取消zk订阅，中断循环，
但是在currentConnector.disconnect();调用之前accessStrategy.currentNode()就已经报错了，导致disconnect失败，取消订阅失败
在这里插入图片描述

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

lanicc 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。