最近工作当中遇到了一个现场OOM问题需要排查原因。由于之前没有接触过因此这次的排查过程给与了我一定的灵感和排查经验,特此总结和记录这个过程希望后面遇到相关的问题能有所帮助。
背景:
现场生产环境发生一例OOM内存溢出问题,通过日志查看只能看到业务代码存在报错的情况,但是没有看到有OOM的日志提示信息,也就是说无法通过log日志直观看到OOM的原因。
那么思路就需要转变了,我们想要知道哪个线程在执行业务代码时花费了多少时间占用了多少JVM内存空间,那么是可以通过生产的dump日志进行解析的,于是赶紧联系现场发布人员获取到了一个xxxxxx.hprof文件。接下来我们通过dump的解析工具MAT(MamoryAnalyzer.exe)打开,就可以看到调用的堆栈信息了。
如下图:
通过上图可以看到不同调用线程的执行情况和占用内存情况,我们可以找到占用内存最多的线程及性能针对性分析。
首先这些列进行介绍每个列代表的含义,以及出现这些数字的原因。
Class Name:线程调用栈经过的类名和方法
Shallow Heap:自身占用内存,不含指向对象的占用内存
Retained Heap:自身占用内存+内部对象指定占用内存
Percent