一次服务器CPU 100%问题的定位

一次服务器CPU 100%问题的定位


最近线上遇到了一次CPU100%,内存飚得非常高的问题,解决过程异常曲折,非常值得复盘。

  • 排查工具
    cpu占用100%的问题的通用定位方案:
    top找出占用高的线程号 -> top -Hp 进程号 查看具体的占用资源高的线程信息 -> jstack 进程号 可以得到当前的堆栈信息(加上-l参数可以打印关于锁的附加信息) -> jmap -dump:format=b,file= 导出dump日志文件(事实证明最终定位问题还是依靠的这个文件)
  • 排查过程
    开始直接看jstack输出的文件,发现占用cpu特别高的是两个GC线程,然后查看程序堆栈信息发现大量的waiting on condition,timed_waiting,locked,但是相关信息,仍然无法准确定位出问题的代码位置。
    无奈把dump文件导到内网服务器上用jstat命令,折腾半天好不容易能看了,可是只看到有大量的CLASS [B数据,虽然查到是byte数组,但是还是很懵,无法定位问题。最后用了eclipse的MAT,一下就定位到了问题-Leak Suspects:
    Leak Suspects
    然后结合MAT的dominator tree还可以查找到造成内存泄漏的sql查询具体的参数从而定位具体的问题。

总结:
1.工具非常重要,工欲善其事,必先利其器。
2.问题排查时结合代码和业务情况缩小排查范围可提高解决效率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值