合同系统BES假死
故障原因
通过排查发现控制台显示19服务节点停止,但登陆对应该主机后发现所有服务和端口均正常运行,判断bes服务假死。
处理过程
通过巡检脚本发现19有error报错;进行问题排查;
排查发现这台机器等待连接数过多;
通过排查发现19进程状态正常,端口正常,但是通过看控制台发现19是停止状态,集中运维团队和开发项目组沟通确定故障机器假死,需要重启恢复;
申请通过前端接入nginx集群隔离bes集群中的19主机;
重启该主机的bes服务
重启后加入nginx 业务恢复正常