最近在项目中,遇到服务的接口无响应,发现服务所在的Linux机器CPU飙升到100%。于是开始定位问题原因。
1、由于监控到Linux服务器CPU使用率100%,所以想到使用top命令查看服务器上各进程的资源使用情况,发现java服务进程的CPU使用率300%以上,且一直降不下来,显然这就是服务接口不相应的原因了。
2、使用 top -Hp <pid> 命令(为Java进程的id号)查看该Java进程内所有线程的资源占用情况。发现,多个线程的CPU占用达到了99%。我们挑选其中一个线程继续分析
3、使用jstack命令定位代码,因为线程快照中线程的nid是16进制的(16进制以0x开头),所以
首先将第二步选中的线程ID进行转换(由显示的10进制转为16进制)。
命令: printf “%x\n” tid
tid指线程的id号,将10进制的线程号(tid)转换为16进制
4、通过使用dk自带命令jstack获取该java进程的线程快照并输入到文件中,
命令: jstack -l PID > ./jstack_result.txt
PID就是在第一步中我们发现的CPU占用300%以上的java服务的进程ID。
5、根据线程号定位具体代码,在第3步中我们已经拿到了线程号的16进制数。因此在jstack_result.txt中可以根据16进制的线程号,来查询对应的线程描述。
cat jstack_result.txt |grep -A 100 tid(16进制数)
这样就看到了线程执行的代码,并发现了问题代码。
其实简化一下可以直接采用jstack pid |grep -A 100 tid(16进制)来定位具体代码