最近线上的服务出现了一次内存溢出的报错,但是服务进程在GC后自动恢复了,记录下本次问题的排查过程。
1.服务日志监控,在某个时间点,日志中有java.lang.OutOfMemoryError:Java heap space的报错,并且服务线程数有飙升的情况,在经历GC后,服务恢复。
2.由于线上以前出现过JVM内存溢出的问题,在JVM启动参数中加了 内存溢出时,dump出当前堆内存快照的指令
-XX:+HeapDumpOnOutOfMemoryError
3.可以在服务的tomcat日志输出目录下,找到异常发生时的快照。文件名为 *.hprof 格式。线上JVM的堆内存设置为-Xmx1792m -Xms1792m ,dump出的堆内存快照为1.6个G的大小,即使从服务器上down到本地,eclipse的MAT插件也无法加载如此大的文件,会报内存溢出。
4.依然采用mat去分析 hprof 文件,借助一台内存比较大的linux服务器
下载地址
从上面的下载地址中,选择合适的版本下载,需要注意的是,高版本的MAT需要由高版本的JDK支持。我们线上使用的是JDK8,所以我下载的是MemoryAnalyzer-1.8.0.20180604-linux.gtk.x86_64.zip。
解压缩后,进入 mat 目录,修改一下mat的配置文件 MemoryAnalyzer.ini
#多版本JDK的时候,指定JDK运行版本
-vm
/home/work/opdir/link/