我们在线上环境中难免会遇到cpu突然升高,久居不下的情况,我们应该快准狠的解决这种问题,来减少业务的损失。通常情况下重启服务就会解决百分之九十九的问题,但很难从根本解决问题,我们可以先试着去分析问题产生原因,以下我总结大致3种产生原因:
1.大量并发的I/O操作
一般 I/O 操作不会消耗太多的 CPU ,因为主要的时间消耗会在 I/O 操作的设备上。比如从磁盘读文件时,主要的时间在磁盘内部的操作上,而消耗的 CPU 时间只占 I/O 操作响应时间的一少部分。但在大量的并发的 I/O 时才可能会使得系统CPU 有所增加。
2.多线程抢占系统资源
对于多个线程抢占某一个系统调用的资源,会导致大量的线程等待->唤醒->抢占,未抢到->等待...。导致不断的切换线程耗费cpu。
3.频繁GC,大量循环引用对象回收不掉导致频繁回收
排查步骤
1、top命令定位cpu占用率高的进程,得到进程号(PID为进程号)
2、top -Hp 进程号 获取到该进程下的所有线程,从而定位到占用率过高的线程号
3、jstack命令查询对应线程到程序
需要将线程号转化为十六进制 :printf ‘%xn’ 进程号,使用jstack 进程号 |grep 线程号十六进制 -A 20,就可以找到了问题代码
-A 20:问题代码后20行
-B 20:问题代码前20行
4、通过jmap命令将存活的内存对象下载来下
jmap -dump:live,format=b,file=/home/work/1380.hprof 进程名
live:只导出存活的对象
file:文件的保存路径
5、如果文件过大超过5G,下载失败可以压缩
tar -zcf 1830s.hprof.tar.gz 1830s.hprof
6、eclipse打开该文件
选择
直接看错误信息
根据业务代码解决问题