MAT分析线上OOM实例

最新推荐文章于 2024-08-07 15:05:29 发布

bohu83

最新推荐文章于 2024-08-07 15:05:29 发布

阅读量1.2k

点赞数 1

分类专栏： JVM 文章标签： mat OOM jmap dump 分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bohu83/article/details/99485947

版权

JVM 专栏收录该内容

30 篇文章 0 订阅

订阅专栏

一问题

群里小伙伴说发生oom了。我没有那台机器权限，先保留现场，找人生成dump文件（jmap -dump:format=b,file=heapDump XXXX）是对应的进程id。然后重启。当然生成文件较大，2.4G 需要一段时间，会造成一次FullGC。非紧急时刻业务高峰期慎用。

当然更推荐一种在启动脚本就加上配置：-XX:+HeapDumpOnOutOfMemoryError 这样发生OOM就不用再手动生成了。

紧急排查问题，jmap -histo:live 打印每个class的实例数目,内存占用,类全名信息. VM的内部类名字开头会加上前缀

看下前10的也大概能有助于锁定范围。比如这个就是一个自定义的业务bean entity很多，74W条。

二 mat 分析

mat 还是很强大的。

打开文件后，提示错误。

这个不是文件不完整，是我本地电脑内存不够了，因为mat默认的是1024M.这个文件就2G多了，还要分析，所以改为-Xmx3072m 就ok了。

总体视图：

2G内存，这个jdbc的结果集就占了1.4G，70%的占用，因此强烈关注与此。

2 histogram: 这个一开始看class的实例数目,内存占用差不多，内容更详细，objects是数量，shallow heap 是本身占用大小，retained heap是实际加上引用占用大小。

看这个基本上就能找方向，结果集及对应的entity可能有问题。

继续看占用最大的结果集是啥？

dominator:List the biggest objects and what they keep alive.

知道对应的结果集内容，跟entity想匹配。单条数据在1.5K左右。

看完这些总体的，改看下具体的原因。mat会给出可疑的分析：

这里就是发生oom对应的线程，看线程的详细信息：

内部RPC框架，可以一层层的看到调用关系，其中dao层可以看到SQL。

select * from table where user_id=?

这里有个插曲，没看到sql之前，我就猜想应该根据条件查询没有limit导致的。

但是这个sql有条件，我强烈怀疑某个id有大量的数据几W那种。

工程是别人的，业务也不懂，小伙伴说没有多条，都是一对一的。

被否定了，可是这100多W条的restset怎么来的呢？难道是一直反复查询不释放。

在找人看看发生oom的日志，上下文无有效信息。

没招了，看阿里云的数据库监控吧，看看有没有慢sql或者之前的那种jdbc连接数过多那种。

真的有，时间点与sql匹配的上，参数是0.执行了1g秒却没有提示慢SQL，返回是1.7m就是170W，跟结果集的169W对应。

问下业务的同学，原来0是特殊情况，历史的数据100多W这种默认为0 的。

至此，确认无疑。因为是偶发的调用，所以问题出现频率不高，但是一旦查询返回结果集过大，则会爆掉。

三改进

要了对应工程git权限，看下这块代码。

也是祖传代码，维护的同学表示无辜。看下逻辑，还是取一条。

那就改下SQL 加上limit 1吧。

反思：对于帮忙排查问题，面临的是机器，代码都不熟悉的情况，需要对应的业务同学帮忙确认问题，但是又不能全信。因为他说的是正常的业务流程，对于极端的异常情况是没有考虑到的。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
MAT分析线上OOM实例

一问题群里小伙伴说发生oom了。我没有那台机器权限，先保留现场，找人生成dump文件（jmap-dump:format=b,file=heapDump XXXX）是对应的进程id。然后重启。当然生成文件较大，2.4G 需要一段时间，会造成一次FullGC。非紧急时刻业务高峰期慎用。当然更推荐一种在启动脚本就加上配置：-XX:+HeapDumpOnOutOfMemoryError 这...
复制链接

扫一扫

专栏目录

bohu83 CSDN认证博客专家 CSDN认证企业博客

码龄17年

874: 原创

2万+: 周排名

205万+: 总排名

175万+: 访问

: 等级

2万+: 积分

992: 粉丝

411: 获赞

277: 评论

1910: 收藏

私信

关注

热门文章

分类专栏

在职学习 2篇
ES 63篇
PMP 45篇
数据库分库分表 16篇
python 40篇
NLP 76篇
推荐系统 1篇
leetcode 95篇
redis从入门到放弃 44篇
MYSQL 84篇
容器化 3篇
并发系列整理 43篇
支付系统 16篇
java 60篇
JVM 30篇
J2EE 27篇
nginx 1篇
RPC 8篇
算法 68篇
服务器 11篇
数据库 87篇
设计模式 4篇
分布式 38篇
网络 14篇
工作资料 57篇
随想 9篇
kafka 12篇
数学 15篇
财务 6篇

最新评论

《算法图解》-9动态规划背包问题，行程最优化
qq_63136240: 看要求，本类型背包问题属于0-1背包问题，即一类商品要么选一个要么不选，故指两个子背包，一个有该行物品的背包一个则代表没有改行的物品。至于子背包可能含有子背包的意思是：比如当我们把该行物品放入背包后，剩下的空间又相当于一个更小的背包（考虑是否放入另一个物品j（非本行）来分解成更小的子背包问题）我的理解，可能不对
Elasticsearch核心技术与实战学习笔记
一念花开一念花落: 你好： doc_count_error_upper_bound：4+3 请问是怎么来的，没有看懂
《程序员的数学：5 排列组合》
彩虹大喇叭: 为什么要除以2啊，最后，不是很理解
word2vec Skip-Gram和CBOW小白学习笔记
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/7988951, 请多输出高质量博客, 帮助更多的人
北京联通烽火光猫+烽火HG680 不拆机破解
showma: 好办法

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。