前言
生产服务器发生了异常内存溢出,重启服务器内存会在一段时间后会突然从33%飙升至99%,将dump从服务器上拿下来后,开始使用工具排查问题!
问题
业务会产生通用日志,日志使用消息机制(rabbitMq)异步处理,当前操作十分简单,发送队列消息 ->消费消息 -> 批量插入对象至数据库,通过开启jmx服务发现,重启后的内存会在一段时间之后突然飙升,此时队列消息消费开始阻塞,jmx内存抽样为下
可以看到,char数组和第三行log业务对象实例数过多导致内存溢出(log业务实例平时一般在100-200个左右),通过消息的异常阻塞以及当前内存堆状柱图再结合业务判断可能是业务处理异常导致消费了错误的数据!
工具
对消费者业务(因当前批量插入为基本工具类导致调用者非常多所以先排除消费者问题)及代码逻辑进行的排查,并且根据内存判断出当前系统并没有内存方面并没有达到瓶颈之后以及没有诸如死循环,无限递归等等,下载了服务器上的dump文件,开始通过通过Eclipsed MAT工具进行排查,下载 Eclipse Mat工具,工具为绿色版本,下载之后直接使用即可,如果堆转储文件过大,修改当前工具的内存MemoryAnalyzer.ini(解压目录).
排查
打开dump文件,如下
其中,Histogr