前言
前不久有兄弟部门的同事找到我,说他们有一个Java应用偶尔会莫名僵死、无响应、同时有个CPU核心占用100%,不稳定复现。希望我协助看看是什么原因。
现场
如果仅仅只看到“僵死”,“无响应”这类描述,可能马上想到GC可能有问题,又看到CPU占用100%,又可能是存在死循环,实际情况是怎么样的呢?
咱们要用证据来说话,所谓证据其实就是故障现场,包括但不限于:GC日志、线程dump、堆dump、业务日志、CPU、内存、磁盘等资源使用情况等等。
1. thread dump
就这个问题而言,因为CPU占用飙到100%,所以我们先通过线程dump出来的堆栈信息看看线程都在干什么。 一般情况下我们常用jstack命令来获取线程dump。同事先使用了如下命令,结果命令也僵死无响应:
去掉-l后才dump出了咱们的第一个证据