因为测试人员报告说,最近订单系统总是超时,要重启才能恢复正常,但是第二次复现的时间不固定。
然后先是查看下应用状态是否正常,没有问题。
然后查看日志,发现有很多交易报超时。
仔细查看超时的日志,发现什么类型的交易都有,而且超时的地方也不固定,更像是系统或者架构层面的错误。
赶紧看下(ps ux)linux系统的状态。发现订单应用的CPU已经100%,但是内存还有剩余,内存占用 大概30%+,下面是已经恢复后的截图。
继续查看应用进程中每个线程的具体情况:top -Hp pid
发现有多个线程的CPU特别高,赶紧把堆栈信息打印出来,jstack pid >>pid.stack
用线程的pid转16进制后去里面找,发现是下面这个东西占用高。
这个是JVM的GC线程,至此超时的原因找到了,但是引发这个GC线程占用CPU