很长时间没有写过文档类的东西了,忽然觉得做了快十年的运维也应该将日常积累的东西晒晒。这是第一篇文章。写此文的原因,近期我司有两台服务器的cpu占用异常,经常收到报警短信,经过一系列的排查发现,由于这两台的应用的java进程占用资源过高,且单个进程的线程数量已超过系统允许范围。
采用的排查方法:
方案一:top命令 可以动态查看进程的ID。然后针对具体的异常java进程,使用top -H -p 进程号,即可动态的查看具体的进程对应所在的每个线程的动态变化情况。
方案二:ps命令 可以使用ps -aux 来查看具体的每个进程的实际应用占用资源情况。结合awk、sort 可以快速定位。实例:ps aux|head -1;ps aux|grep -v PID|sort -rn -k +3|head 。然后再使用下面几个方式查找问题:
1、ps -Lf 进程ID,查看问题的线程。
2、ps -mp pid -o THREAD,tid,time 查看线程。
方案三: pstree 命令, 使用pstree -p 用户名 ,可以查看该用户下的进程数。
通过上述方法查询和分析后,再通过java分析命令jstack 来分析具体原因。
先 printf "%x\n" tid ,tid为有问题的线程号,将其转换为十六进制。
然后打印线程的堆栈信息:
jstack -F pid |grep tid -A 30| sort -rn
将结果发给开发人员分析问题。