数栈运维案例：客户生产服务器CPU负载异常处理

最新推荐文章于 2022-02-25 16:23:32 发布

袋鼠云数栈

最新推荐文章于 2022-02-25 16:23:32 发布

阅读量316

点赞数

分类专栏：数栈精品技术文章文章标签：运维网络 java nginx 分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a958014226/article/details/115751762

版权

CPU负载 fpm-php Nginx 服务器优化告警处理

关键词由CSDN通过智能技术生成

数栈精品技术文章专栏收录该内容

48 篇文章 1 订阅

订阅专栏

本文整理自：袋鼠云技术荟 | 某客户生产服务器CPU负载异常处理

数栈是云原生—站式数据中台PaaS，我们在github和gitee上有一个有趣的开源项目：FlinkX，FlinkX是一个基于Flink的批流统一的数据同步工具，既可以采集静态的数据，也可以采集实时变化的数据，是全域、异构、批流一体的数据同步引擎。大家喜欢的话请给我们点个star！star！star！

github开源项目：https://github.com/DTStack/flinkx

gitee开源项目：https://gitee.com/dtstack_dev_0/flinkx

一、问题背景

一天下午，大家都在忙着各自的事情，突然小组人员都同时收到了短信提醒，以为是公司发奖金了，很是开心，咋一看“某某客户服务器cpu使用率100%，请及时处理！”原来是告警短信，同时看到钉钉群里发出了大量的告警信息……

二、故障回顾

告警提示”CPU使用率到达98%” ，打开阿里云控制台，通过云监控发现在下午15:06-16:46左右，云上机器某四台集群服务器cpu使用率波动较大（先降后升），负载过高，网络流量达到一定峰值就出现下降趋势，TCP连接数先是出现下降趋势，后面出现上升状态。现象如下图：

CPU先降后升使用率情况：使用率接近100%

系统平均负载先升后降情况：load超过40

网络流入流量：网络带宽流入流出先降后升

TCP 连接数情况：先升后降

三、问题排查过程

1) nginx 日志排查

查看nginx15:06-16:46时间段的日志发现请求订单接口响应时间较长，超过30s。如下图：

2) 查看fpm-php日志

查看fpm-php日志，在15:06-16:46这个时间段中，fpm-php子进程出现大量重启，如下图：

同时，nginx错误日志中发现较多的502,504状态码，如下图：

Nginx 502 状态码：

Nginx 504 状态码：

3) 问题定位分析

a. 从fpm-php对应的日志里发现大量的fpm-php子进程重启,原因是每个子进程接受的请求数达到设定值。

b. 在大量的fpm-php子进程重启过程中，如果有大量请求进来是无法响应的，所以Nginx收到大量的502、504报错。

c. 同时在大量的fpm-php重启时会消耗大量的CPU load， PHP不接受业务请求、不转发数据，服务器流量直线下降。

4) 处理结论

经过上述分析，最终定位确认是fpm-php子进程数配置太低，同时每个子进程接受的请求数max_requests设置太小。无法应对每天的流量高峰。

四、优化建议

根据服务器的CPU/内存配置，适当增加children的数量和max_requests的请求数。如下图，设置一个比较大的值。

五、优化效果

1）增加fpm-php子进程数以及每个子进程接收的请求能减少php子进程大量重启频次；

2）可缓解业务高峰期对服务造成的压力，降低业务影响。

六、写在最后

基于互联网在线化方式，袋鼠云为客户提供云上网络和资源规划、应用架构规划、性能优化、监控告警、系统健康检查、业务大促护航、云上安全运营等全方位的专业运维服务，保障客户业务系统在云上稳定运行。

袋鼠云数栈

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。