一、背景
最近在进行一个模块的开发时,在测试环境中测试没问题,然后在发布到生产环境后,经常发生堆内存溢出的错误导致服务挂了,需要排查出错误的源头。
二、排查思路
- 加大堆内存参数。通过修改docker-compose.yml文件参数调大jvm的堆内存大小。并且把错误发生时的快照保存进文件,以便重现时进行分析。(本模块是基于容器化部署)
environment: - JAVA_OPTIONS=-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp -Xmx4096m
- 当加大堆内存后,仍然发生了堆内存溢出,此时我们就需要获取到对应的内存快照进行分析。此时我们可以在/tmp目录下获取到对应生成的文件java_pid1.hprof。
- 选择一款合适的jvm内存分析软件对java_pid1.hprof进行解析分析。
三、jvm分析软件
本次排查过程采用的软件是jvisualvm,这是一款jdk8的bin目录下自带的一个分析工具,使用这个工具我们可以用来分析hprof文件。进入bin目录后,使用jvisualvm命令即可打开该软件
cd /usr/bin
jvisualvm
进入软件后,点击左上角的图标,即可装入hprof文件
选择生成的hprof文件装入后:
然后点击查看异常抛出的线程。
然后就在该线程下找到了一个熟悉的方法,发现原来有个地方一次性从数据库中查询了几十万的数据返回,导致一下子就把堆内存撑爆了,然后找到类似的地方也修改了。之所以在测试环境中没问题,是因为测试环境数据量不多。至此问题排查结束,修改对应的代码就完事了。