线上事故处理总结

本文总结了处理线上CPU空闲时间低和系统负载报警的经验,通过JVM工具jstack、jmap、jstat进行诊断。虽然这些工具能提供部分信息,但直接找出问题根源有一定难度。通过结合ps、top等命令定位最繁忙线程,并使用jstack分析堆栈信息,最终发现idService.putPoiIdsInfoIntoCache()函数频繁调用导致问题,原因是历史遗留的job模块通过zeromq与thrift交互方式。解决办法是修改逻辑,不再依赖zeromq。建议将排查问题的脚本保留,以备后续故障排查。
摘要由CSDN通过智能技术生成


1、线上有些机器cpu idle(cpu空闲时间)和load avg(系统负载)报警;这个跟业务逻辑还不太一样,如果业务逻辑错误还可以看 error日志,看看zabbix上监控的上游服务时间相应等等


到底是什么原因引起的呢?我们必须知道系统现在到底在干啥?思路无非就是通过JVM的工具:

1、jstack看进程中的各个线程都在干啥?

2、jmap 看看内存是不是满了?young区&old区等。。。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值