线上OOM异常案例及排查过程

最新推荐文章于 2024-06-17 23:52:29 发布

qq_31594647

最新推荐文章于 2024-06-17 23:52:29 发布

阅读量849

点赞数

文章标签： jvm

本文链接：https://blog.csdn.net/qq_31594647/article/details/121266357

版权

线上OOM异常案例及排查过程

1.导出堆转储文件分析

由于启动脚本里面加了 -XX:HeapDumpPath=./gcLog/java_%p_%t.hprof -XX:+HeapDumpOnOutOfMemoryE
rror ，所以发生OOM异常的时候会自动生成堆转储文件放到配置的指定位置。启动脚本如下：

从服务器把堆转储文件 down下来之后，用jvisualvm来分析dump文件。

 	jvisualvm是JDK自带的Java性能分析工具，在JDK的bin目录下，文件名就叫jvisualvm.exe。
 	
	 jvisualvm可以监控本地、远程的java进程，实时查看进程的cpu、堆、线程等参数，对java进程生成dump文件，并对dump文件进行分析。像我这种从服务器上dump下来文件也可以直接扔给jvisualvm来分析。

	使用方式：直接双击打开jvisualvm.exe，点击文件->装入，在文件类型那一栏选择堆，选择要分析的dump文件，打开。

在这里插入图片描述

用JVisualVM打开文件后就会看到提示这里有异常，点击进入这个线程异常，就可以看到报错信息
在这里插入图片描述

在这里插入图片描述

根据上面的报错信息我们可以定位到程序代码的具体位置。CoreWxNoticeServiceImpl.java 文件的38 行，WxNoticeQuery.java 的 45 行。

在这里插入图片描述

看到这里，刚开始怀疑是不是查询出来的数据太多，导致往list 放的太多造成OOM了。
BUT… 拿到对应的sql脚本执行时，发现查询的出来的数据并不多，只有6百多条。
怪哉。。。。。
只能去分析对象实例了。。。。

找到真正的问题所在：

后来，通过查看阿里云的sql执行管理平台，发现服务器异常的那个时间点，有一条sql 执行查出来了六十多万用户数据。
找到程序的那个地方，原来那个 sql 查询传入的是一个map ,而 map 中的值有没有判断空（实际业务中那里不应该为空的，为空时应该直接返回入参为空的异常），导致查出了所有的用户数据。共60多万条，有480多M 数据（总的堆内存是1G）。

分析:
应该是这里查询的数据太多，占了太多内存，快要接近临界值了，后面又接着处理其他的逻辑，查其他数据时（CoreWxNoticeServiceImpl.java 文件的38 行），虽然其他的数据不多，但是总的占用就溢出了，所以看到报错的地方是 CoreWxNoticeServiceImpl.java 文件的38 行这里。

解决办法：
在执行查询用户的那个sql 之前加一个判断，如果 map 里面的参数同时为空，则不往下走，直接返回参数为空的异常。

qq_31594647

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
线上OOM异常案例及排查过程

线上OOM异常案例及排查过程1.导出堆转储文件分析由于启动脚本里面加了 -XX:HeapDumpPath=./gcLog/java_%p_%t.hprof -XX:+HeapDumpOnOutOfMemoryError ，所以发生OOM异常的时候会自动生成堆转储文件放到配置的指定位置。启动脚本如下：从服务器把堆转储文件 down下来之后，用jvisualvm来分析dump文件。 jvisualvm是JDK自带的Java性能分析工具，在JDK的bin目录下，文件名就叫jv
复制链接

扫一扫