上周中午上线时,发现一个服务的十几个服务实例down掉了一半,仔细一看发现没有down掉的实例CPU占用也是特别高,
怀疑是代码逻辑上出了问题,后经过一上午的排查发现是一个客户的错误的操作导致代码中的一个while死循环了,然后把该用户的数据改掉问题解决,以下记录问题定位的方法:
1.top -Hp pid 找到最耗资源的线程id
.
2.
printf "%x\n" 21742
得到21742的十六进制值为54ee,下面会用到。
3. jstack pid | grep 54ee
查看相关堆栈信息
"main" #1 prio=5 os_prio=31 tid=0x00007fddde001800 nid=0x2903 runnable [0x000070000c99d000]
java.lang.Thread.State: RUNNABLE
at com.lyh.seckill.test.Test01.main(Test01.java:10)
4. 分析:
a. 一般死循环 是 RUNNABLE 但是CPU占用很高
b. 死锁是deadlock