记一次服务器负载飙高排查过程
问题描述
在前天呢,我们公司的三台部署着php项目的线上服务器A、B、C,其中一台服务器A出现了CPU负载飙高,与其他两台服务器相差好几倍,并且在前天之前都没有出现过这么高的情况,所以需要针对问题进行排查
排查过程
首先第一件事,找日志,看看异常的时候到底在干什么,找到服务器top日志,找到对应负载上升和下降的连续时间的日志(下面截图已做处理)
上面三个截图对应的是第一个负载图顶点附近的日志,可以看到,28688这个进程占用了大量的CPU
继续查看日志,A服务器在第二天负载突增的时间点,也是这个28688,截图我就不放了,那看起来就是这个进程的原因?
遗憾的是,这个28688的进程是一个监控程序,运维在几天之前就已经部署在好些个服务器上了,且别的服务器都没有出问题,所以当时推测,这个监控程序之所以CPU使用率高,是受别的进程影响导致的
那如果不是这个进程,剩下的一些高CPU的进程都是php的定时执行脚本和一些用户请求,难道是用户量增加导致的负载变高?也不是&