使用传统jstack手法来排查
如何使用原生top命令、jstack命令来做定位具体代码的位置处理
简单步骤有下面几步
- 执行top命令,查看CPU占用情况,找到进程的pid(12002)
- 使用 top -Hp <pid> 命令(为Java进程的id号)查看该Java进程内所有线程的资源占用情况
- 找出负载高的线程,记录tid(26917);
- printf “%x\n” 命令(tid指线程的id号 26917)将以上10进制的线程号转换为16进制nid(6925);
- jstack -l <pid>(12002) > ./jstack_result.log 【采用jstack命令导出线程快照 ,通过使用jdk自带命令jstack获取该java进程的线程快照并输入到文件中: jstack -l 进程id号 > ./jstack_result.txt 命令(为Java进程的id号)来获取线程快照结果并输入到指定文件。】
- cat jstack_result.log | grep -A 200 <nid>(6925)【根据线程号定位具体代码 cat jstack_result.log | grep -A 100 6925】
实践
以下案例是java应用docker容器部署排查的,jar方式部署的话排查步骤是一样的
使用top命令查看
top
查看cpu使用率比较高的线程
top -Hp 1
然后将占用最高的 pid 转换为 16 进制 printf '%x\n' pid 得到 nid:
printf '%x\n' 106
接着直接使用 jstack 导出进程1的堆栈信息
jstack -l 1 > ./jstack_result.log
接着直接导出的堆栈文件里面中找到相应的16进制转换后的线程堆栈信息
cat jstack_result.log |grep -A 200 'nid=0x6a'
可以看到我们已经找到了 nid 为 0x6a的堆栈信息,接着只要仔细分析一番即可。
当然更常见的是我们对整个 jstack 文件进行分析,通常我们会比较关注 WAITING 和 TIMED_WAITING 的部分,BLOCKED 就不用说了。
既然我们比较关注这三种状态,我们就回顾下线程的基本知识
先从网上找了一个图
从图上就可以得知
WAITING:进入等待状态,
使用方式:wait/join/park方法进入无限等待,通过notify/notifyAll/unpark唤醒;
TIMED_WAITING:与WAITING类似,
使用方式:
a. 给定等待时间的wait/join/park方法;
b. sleep方法;
BLOCKED:被动进入等待状态,使用方式进入Synchronized块;
顺便补下之前关于线程等待两种方式的区别
Object.wait()和Thread.sleep()
区别:
- wait() 方法必须在同步代码块中调用,否则会抛出异常IllegalMonitorStateException; 而sleep()则不会
- sleep不会释放锁,它也不需要占用锁,到指定时间过期会自动唤醒。wait会释放锁,但调用它的前提是当前线程占有锁(即代码要在synchronized中)等到唤醒条件满足之后,线程进入锁池,获取锁之后进入READY状态;
- 它们都可以被interrupted方法中断。
- wait()与wait(0)同义,无限等待,如果没设置超时时间的wait方法必须等待其他线程执行notify来唤醒;sleep(0)的意思是不等待,并且触发操作系统立刻重新进行一次CPU竞争
我们可以使用命令 cat jstack_result.log | grep "java.lang.Thread.State" | sort -nr | uniq -c 来对 jstack 的状态有一个整体的把握,如果 WAITING 之类的特别多,那么多半是有问题啦。
cat jstack_result.log | grep "java.lang.Thread.State" | sort -nr | uniq -c
使用arthas利器来排查
执行下面命令下载arthas包,敲下回车键就可以下载对应jar包
curl -O https://arthas.aliyun.com/arthas-boot.jar
java -jar arthas-boot.jar
使用thread命令查看那个线程cpu最高
thread 线程id 即可排查定位到异常代码来分析,简直不能太easy