一次端口告警,发现 java 进程被异常杀掉,而根因竟然是因为在问题机器上 vim 查看了 nginx 日志。下面我将从时间维度详细回顾这次排查,希望读者在遇到相似问题时有些许启发。
时间线
15:19 收到端口异常 odin 告警。
状态:P1故障
名称:应用端口8989
指标:data-stream-openapi.port.8989
主机:data-stream-openapi-nmg-sf-a9457-1.docker.nmg01
节点:hbb-v.data-stream-openapi.data-stream.datadream.didi.com
当前值:0.00
说明:happen(data-stream-openapi.port.8989,#12,12) = 0
故障时间:2022-11-15 15:21:10
收到告警之后,登陆机器发现 java 进程消失了,第一反应是先摘流容器,然后再排查问题。
15:23 摘掉容器流量。
15:24 开始重建容器。
15:26 重建容器成功并上线。