生产环境发生OOM，还可以这么玩

最新推荐文章于 2022-11-16 11:40:21 发布

爱学习爱聊天

最新推荐文章于 2022-11-16 11:40:21 发布

阅读量402

点赞数 1

分类专栏： JVM 文章标签： java oom jvm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26418435/article/details/118998481

版权

JVM 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

背景：

产品带着问题又来了，线上用户激活都半个小时了还没成功

拿到单号，打开kibana像往常一样想着估计又哪个地方报错了，搜了半天发现上游系统已经将消息发到MQ，但我们系统迟迟未消费消息

算了，本着用户优先的态度，先修数据吧，自己悄悄的从控制台手动重发了一个消息，成功了，，，怎么会没收到消息呢？？？

第一反应是MQ丢消息了，正翻看着MQ控制台，他来了，带着问题又来了，又有用户卡单了，怎么回事

发现问题：

1、单条搜日志：又是没消费消息，有点小紧张了，看了一下数据库，新单子还在往里进，嗯问题不大

2、排查影响范围：写了个sql一查，慌了，，，几千条数据、、、卡了，查了两条日志，都是没消费消息

引发问题猜想：

1、第一反应MQ挂了？立马被推翻了，如果MQ挂了，这么多系统早炸锅了

2、MQ部分服务器异常？找运维看了一下监控，一切正常

3、不是MQ服务的问题，那肯定是我们自己服务的问题了，线上数据要紧，重启后消息被消费

排查问题：

打开kibana开始搜索近一个小时的日志是否有异常，没有发现任何问题

开始按ip单台查询（线上服务器不多），问题来了其中一台服务没日志，挂了？？？

通过Grafana查看服务运行情况：堆内存明显飙升，gc次数瞬间暴涨

第一反应内存溢出了，运维同学查询了当时的日志，果然如此OOM

没有生成dump文件，没法分析那个类引起的

日志排查，没找到有用的日志

通过Cat查询当时的异常，慢SQL等，果然，发现了一条limit X的sql，时间对上，数据足够大，基本可以锁定是这个sql的问题了

然后通过调用链发现是产品同学通过后台导出数据时数据量过大引发OOM

反思问题：

1、触发OOM但是没有生产dump堆栈文件，排查异常麻烦（不知道Grafana能不能直接找到引发OOM是哪个类）

2、系统高频率触发OOM，开发同学无相关报警提醒

3、引发OOM后系统并未宕机，没搜到zk删除节点的日志，但为什么没有RPC流量进入了

4、MQ没有重新Rebalance队列，说明和consumer还存在心跳，但为什么不拉消息消费了

5、系统缺陷limit大数值

解决问题

1、系统缺陷

1、limit可判断最大条数，跟业务方沟通超出多大限制后直接拦截

2、生成表格类的需求是否可走大数据生成

2、MQ没有重新Rebalance队列，说明和consumer还存在心跳，但为什么不拉消息消费了，无RPC调用

1、系统活着但干不了活了，也就是假死状态，如可以ping通但ssh却连不上，这个时候心跳还在但无法处理正常请求了

2、处理方案：可在系统开发接口，直接返回true，作为服务心跳检查，可避免假死

3、回想zk的剔除服务场景（不太确定consumer节点有没有被zk剔除）

zk服务端和客户端启动成功后会建立长连接，生成会话id（Session）并设置Session超时时间，在超时时间内客户端定时向服务端发送心跳（续约超时时间）

会话期间由于外在原因可能引发连接断开或会话超时

1、连接断开：

网络抖动、客户端正常服务端宕机，客户端会重新尝试连接其他zk服务器建立连接，前提是在Session未超时的情况下

2、会话超时

客户端与服务端断开连接后，在Session有效时间内并未重新建立连接，重新连接DNS连接异常时会无法再次连接（此为低版本bug，目前3.X版本代码已修复）

总结：

1、JVM启动参数应该配置OOM时生成dump文件，方便后续堆栈分析

2、遇到类似场景应充分利用监控工具找到问题服务，第一时间考虑服务恢复（本次直接全部重启了所有服务，如果服务数量众多就不可取了）

3、自动报警不充分（可能是报警太多直接习惯性忽略了），应该有重点的报警，然后按等级分发到不同人员

4、系统健壮性欠缺(分页无最大限制)，服务心跳机制不健全

公众号不定期更新各种段子、个人感悟、源码、面试题、微服务技术栈，帮忙关注一波，非常感谢

爱学习爱聊天

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

爱学习爱聊天 CSDN认证博客专家 CSDN认证企业博客

码龄10年

111: 原创

6万+: 周排名

29万+: 总排名

11万+: 访问

: 等级

2068: 积分

71: 粉丝

165: 获赞

15: 评论

220: 收藏

私信

关注

热门文章

分类专栏

eureka 1篇
微服务 11篇
事务 3篇
elasticsearch 5篇
CAT 4篇
gateway 4篇
JVM 3篇
内存模型 2篇
持续交付流水线 4篇
netty 5篇
dubbo 6篇
多线程 4篇
计算机网络原理 1篇
日记
加密 1篇
MongoDB 1篇
Apollo 8篇
spring 3篇
日志脱敏 1篇
分库分表 4篇
docker 1篇
RocketMQ 3篇
security 1篇
故障复盘 3篇
mysql 1篇
linux下java工具使用 4篇
算法 6篇
设计模式 1篇

最新评论

微服务-服务熔断/降级-开发实战
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用标准目录；(2)增加条理清晰的目录。
Spring-cloud-gateway加密验签可以这么玩
NighLife: Mono.empty会导致后面的api接收不到数据,请求超时,这边的处理方法是什么啊
Spring-cloud-gateway加密验签可以这么玩
NighLife: 请问,baseRequest如何放到其他模块呢?,比如说有好几个继承baseRequest的类是我在其他模块所用到的,放在网关这里我这边使用不了,是需要其他模块也同样写出来这几个类,通过fastjson转化吗?这样做的话重复的类是不是有点太多了,能否直接放在其他模块使用呢?
CAT埋点实战-服务器搭建-代码实现
爱学习爱聊天: 大概思路：调用端将transId传到服务提供端，只需要解决怎么传的问题就可以了，你可以自定义ThreadLocal，也可以用http的header，还可以用RpcContext，还可以用MDC，都是解决方案
Apollo配置中心源码解析
chencb_: 你好我想请问一下这个apollo的配置文件有限制大小然后源码里面能修改配置文件的大小限制吗就是想在一个配置里写更多的语句

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。