一、背景
服务器出现CPU打满报警,并且服务TP99飙升至1.3s+,依赖方反馈大量超时。
二、处理过程
1.查看服务器指标
首先查服务器的各种指标,根据指标值和趋势大概确认问题。可以看到CPU已经很耗尽了,load彪高比较严重
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/0df6ef23e14697635b67a13e836160d1.png)
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/c0c0e4acc3c450b01b41c48ea0e37bec.png)
而且此时ygc的次数和耗时都有明显增加,这些指标都会严重影响TP99.
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/0bef82801cba06261d32f751cd84f772.png)
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/931505ad938115f0599b913a310893bb.png)
上边这些趋势图和业务QPS趋势吻合,初步推断是由于超过单机处理QPS阈值。
2.紧急处理
- 根据初步推断采集CPU数据保留现场
- 根据初步推断结果采用扩容方案进行止损。果然扩容后服务趋于稳定。
三、问题分析
1.TP99为什么升高?
因为CPU打满,