记一次线上cpu飙升100%的排查过程

8 篇文章 0 订阅

大家好,我是烤鸭:

   最近没怎么写技术文章,还是得回归下初心,正好前几天出现个线上问题,记录下排查过程。

问题描述

某个时间点,接收到接口响应慢报警。

过一会收到服务器cpu可用率低(<10%)报警。

去cat上查看发现younggc次数频繁。

在这里插入图片描述

排查思路

  • 业务代码近期没改动和发版,出现问题大概率是中间件或者环境问题(服务器硬件或网络)。

  • 尝试回滚代码和扩容机器。

  • 输出堆栈日志和gc快照,调整jvm参数。

排查结果

  • 中间件和网络:

    使用到的中间件包括 es、redis、mysql,分别去监控和连接查看,没问题。

    网络也在机器上测试,没问题。

  • 回滚和扩容

    尝试回滚到上一个稳定版本和增加扩容机器。

    还是有问题。

  • 输出堆栈日志和gc快照,调整jvm参数。

    其实堆栈日志是可以解决问题的,不过当天晚上排查的时候,没有过度关注业务方法,导致错过了问题根源。

    gc快照分析结果,发现是tomcat的一个初始化对象占有较多(跟问题无关)。

在这里插入图片描述

在这里插入图片描述

总结

cpu升高和gc频繁,其实是两个问题,都可能会引起服务不可用。

单纯的cpu升高,基本确认是死循环问题,抓到对应的堆栈信息即可。

#抓取进程中cpu消耗高的线程
top -Hp pid
#线程id转成十六进制
printf '%x\n' tid
#抓取java线程堆栈
jstak-l pid

而gc频需要查看gc日志,是否引起oom。

实时查看gc情况,每隔5s打印一下gc情况。

jstat -gcutil pid 5000

输出gc快照。

jmap -dump:format=b,file=/data/dump.hprof pid

然后使用eclipse mat 或者 jprofiler 进行分析。

血泪教训

当天忽略了堆栈日志,过多的关注在gc上。

排查问题的思维定式,排查思路和实际执行不严谨,以致于错过问题根源。

运行了几年的代码都没出问题,不代表代码本身没问题,以堆栈日志和gc日志为准。

根本原因就是数据库脏数据触发了代码中一个死循环bug(运行了一年才发现,也是醉了)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
线上内存飙升是一个比较严重的问题,如果不及时处理,可能会导致系统崩溃。以下是一般的排查问题的过程: 1. 监控告警分析:系统应该有监控告警机制,如果内存使用率过,应该及时发出告警并录监控数据。首先,需要分析告警信息和监控数据,确认内存使用率确实出现了异常。 2. 定位问题代码:通过监控工具、日志和代码调试等方法,确定哪些代码出现了内存使用率飙升的问题。可以使用 JVM 的内存分析工具,例如 jmap、jhat、jstack、VisualVM 等来分析内存使用情况,并找出内存泄漏的代码位置。 3. 解决问题代码:根据定位出的代码问题,进行修复。对于内存泄漏问题,需要分析代码中的对象生命周期,释放不再使用的对象,并检查是否存在对象引用未释放的情况。对于频繁创建和销毁对象、大对象等问题,需要优化代码逻辑,减少内存占用。 4. 测试验证:完成修复后,需要进行测试验证,确保问题得到了解决,并且没有引入新的问题。 5. 监控预警优化:针对该问题,需要优化监控预警机制,避免类似问题再次出现。可以增加更加详细的监控数据、设置更加敏感的告警阈值等等。 总之,线上内存飙升是一个比较严重的问题,需要及时发现、定位、修复和验证。同时,也需要优化监控预警机制,避免类似问题再次出现。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

烤鸭的世界我们不懂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值