在之前的记一次k8s pod频繁重启的优化之旅中分享过对于pod频繁重启的一些案例,最近又遇到一例,继续分享出来希望能给大家带来些许收获。
问题现象
报警群里突然显示某pod频繁重启,我随即上去查看日志,主要分这么几步:
1.查看pod重启的原因,kubectl descirbe pod
Last State: Terminated
Reason: Error
Exit Code: 137
上面的Reason:Error太宽泛了,不能直观的知道原因,Exit code:137一般表示程序被 SIGKILL
中断信号杀死,异常原因可能为:
https://cloud.tencent.com/document/product/457/42945
首先排除OOMKilled情况,剩余的就是livenessProbe(存活检查)失败。
2.查看pod事件,kubectl descirbe pod,重点关注输出的Events部分
Warning Unhealthy 2m56s (x8 over 7m16s) kubelet Liveness probe failed: Get http://10.244.11.136:8080/jc_actuator_1/health: net/http: request canceled (Client.Timeout