今天测试反馈线上测试环境的数据几乎不入库,而最近刚好新版本提测,估计是哪里影响了,先从部署环境排查入手。
top命令查看服务器的运行情况,发现个进程一直占着CPU,CPU消耗基本100%。
pwdx查看进程,发现该进程正好是模块的应用。
查看该进程的线程列表,看看是那个线程占用CPU过高:ps -mp 5866 -o THREAD,tid,time。
可以看到有个线程CPU占用高得很离谱,记录线程id,将线程id转成16进制,jstack打印该进程的堆栈,查找对应的线程。
从输出中可以看到具体阻塞的线程,定位到具体代码,发现有个阻塞队列获取元素的处理不合理,出现了死循环,导致CPU空转。
总结具体的排查过程:
# 查看进程号pid
top
# 确认进程号对应的模块应用
pwdx pid
# 查找耗时最长线程的tid
ps -mp pid -o THREAD,tid,time
# 转成16进制
printf "%x\n" tid
# 堆栈查找指定线程,查看线程具体运行情况
jstack pid | grep tid -A 30