1.使用top命令查看发现机器是否存在load高或者很高
load高的定义: load负载值大于 cpu数量的 1/2 . load很高的定义: load负载值大于等于cpu的数量
cpu数量通过top命令后输入1查看 如下图所示 cpu0-cpu3 共4个cpu
load average值为4 4.49 4.61 分别为1分钟 5分钟 15分钟的平均负载值
2.通过top所列出进程找到可能引起的进程id,如图所示 pid : 11346
3.通过top -Hp 11346 查看可能引起问题的线程id
4.利用jstack 将java进程线程运行情况进行下载,一般此命令需执行多次每个命令间隔10秒
jstack -l 11346 > 20190906_jstack.log1
jstack -l 11346 > 20190906_jstack.log2
jstack -l 11346 > 20190906_jstack.log3
5.查看可疑进程
将步骤4中的占有高cpu的进程id进行16进制转换
如图所示中的12640 利用liunx命令 得到16进制结果3160
通过3160来探测是否存在异常
printf %x 12640
grep 3160 20190906_jstack.log1
grep 3160 20190906_jstack.log2
7.查看可疑代码
grep tsy 20190906_jstack.log1
grep tsy 20190906_jstack.log2
通过步骤六可疑证实没有死锁,死循环,但是存在高cpu任务
通过步骤七可疑证明存在异常代码,然后最后去查看项目代码进入指定行数
8.打开工程查看代码发现可疑代码
进一步怀疑由于字符串split导致,因为字符串操作会因为cpu负载升高
了解业务发现每一次search请求都会对一个将近5000字符串list进行循环,一个循环中会有两次split.假设一分钟有1w个search请求
将进行1w * 5000 *2 次split请求 ,字符串split操作进行1ww次.初步断定为问题所在
9.解决问题,查看问题解决效果
load由 4降到了0.19 效果提升数倍