背景
在spark streaming程序持续运行中,经过一段时间之后,executor频繁发生GC time,导致每个批次处理时间变长,推测程序存在内存泄漏,因此引入MAT内存分析工具
MAT的安装
由于我们已经习惯了IDEA开发,为了MAT下载个Eclispse不值得,所以我们安装一个独立版的MAT。
MAT下载地址:https://www.eclipse.org/mat/downloads.php
选择自己的操作系统进行下载,本文以 Mac OSX (Mac/Cocoa/x86_64) 系统为例。
下载得到一个zip文件,解压后得到mat文件,直接双击mat文件会出现异常,此时的解决办法:
打开终端进入到mat目录:
cd ~/Downloads/mat.app/Contents/MacOS/
./MemoryAnalyzer -data ./dump
启动成功,打开页面,安装成功!~
解决问题
- 利用jmap指令 ,生成内存快照文件,PID指的是进程ID
jmap -dump:format=b,file=文件名 PID
-
打开MAT,选择 Open a Head Dump ,指定到内存快照文件,期间选择 Leak Suspects Report
-
稍等片刻会自动生成内存分析结果,可以看到最大的问题是JDBC4Connection存在未释放的内存
-
Histogram查询,点击Actions下的Histogram项得到结果:
Shallow Heap浅堆:java对象占用的内存
Retained Heap深堆:java对象及对象引用的类占用的内存 ,jvm gc回收时释放的内存
Retained Heap深堆大于等于Shallow Heap浅堆我们分析的目标是Retained Heap,选择 Merge Shortest Paths to GC Roots -> exclude all phantom/weak/soft etc.references ,然后一层一层的往下点,可以看到内存没有释放的原因了;通过 outGoing references 也可以查看该实例中引用了那些对象一直没有释放,最后定位到代码的问题。
MAT工具的使用远远不止这些,其他的用法以后用到了再说明
参考资料:
https://blog.csdn.net/mahl1990/article/details/79298616
https://blog.csdn.net/mynamepg/article/details/81560917
https://www.cnblogs.com/aaa2832/p/3594749.html