问题
记录一下上周中午,系统突然出的CPU使用过高导致的异常。异常主要表现在load.1minPerCPU、cpu.user以及cpu.idle等指标明显上升,而且重启容器后指标不下降。由于系统的特殊性(支持热部署代码运行),第一反应是,猜测提交的热部署代码中有死循环的部分导致的。所以现在就要想办法定位出这是哪一段代码,以及在哪里运行的。
排查过程
1.找出CPU使用占比最高的java进程。这里直接使用top命令就可以查看到对应的pid。这里可以看到这个进程的CPU占用非常高
2.找出进程中占用top是的线程,这里我使用的是ps命令查看线程id,当然还有top -Hp <进程ID>命令
ps -mp <进程ID> -o THREAD,tid
这里的tid可以理解为线程tid(pthread_self() 进程内唯一)
3.将获得tid转换成16进制,这里以137076为例,转换为0x21774
printf "%x" <tid>
4.通过jstack命令查看线程堆栈的情况看。这里为了方便排查,打印一定数量的前后文本
jstack <进程ID> | grep nid=<TID的16进制值> --after-context <NUM>
jstack 136992 | grep nid=0x21774 --after-context 100
ps:刚查出来的tid对应jstack中的nid(tid: java内的线程id,nid: 操作系统级别线程的线程id)。
5.最后根据堆栈内的信息来定位问代码即可