目录
-
背景、现象
3天内,nginx 504告警、大量请求504。客户反馈用户打不开页面。
-
紧急处理
单台重启服务器容器,重启后问题解决。
之后几天又出现了 (监控显示流量并未出现大量升高、突增的现象)、监控显示不是ES和MYSQL的瓶颈后,想到先紧急扩容服务器,容器数量又4台增加到10台。线上问题解决。
-
排查过程、现场。
1、cat监控监控发现大量接口URL响应时间40s以上。
2、cat监控 查看线程栈 发现ActiveThread 大量上升。HttpThread 大量上升。GC CPU 等监控均正常。
3、打开耗时较长logview 发现是httpInvoker调用一个报表服务耗时过长,但是代开报表服务确没有发现耗时较长的URL 和SOA客户端打点调用的消耗时间不一致。继续查看DB、ES均未发现集群异常、慢查询等。
4、打开网络监控 、发现服务器大量连接close_wait (因为服务请求超时,Ngin