【Pod故障处理】Pod 无限重启且流量异常

最新推荐文章于 2025-03-27 11:49:43 发布

2401_89314348

最新推荐文章于 2025-03-27 11:49:43 发布

阅读量460

点赞数 10

文章标签：运维云计算服务器

本文链接：https://blog.csdn.net/2401_89314348/article/details/144127784

版权

故障现象

Pod 突然不断重启，期间有流量进入，这部分流量异常。

原因

Pod 之前所在节点异常，重建漂移到了其它节点去启动。

Pod 重建后由于基础镜像中依赖的一个服务有问题导致启动较慢，因为同时配置了 ReadinessProbe 与 LivenessProbe，大概率是启动时所有健康检查都失败，达到 LivenessProbe 失败次数阈值，又被重启。

Pod 配置了 preStop 实现优雅终止，被重启前会先执行 preStop，优雅终止的时长较长，preStop 期间 ReadinessProbe 还会继续探测。

探测方式使用的 TCP 探测，进程优雅终止过程中 TCP 探测仍然会成功（没完全退出前端口监听仍然存在），但实际此时进程已不会处理新请求了。

LivenessProbe 结果不会影响 Pod Ready 状态，是否 Ready 主要取决于 ReadinessProbe 结果，由于 preStop 期间 ReadinessProbe 是成功的，Pod 就变 Ready 了。

Pod Ready 但实际无法处理请求，业务就会异常。

总结

Pod 慢启动 + 存活探测导致被无限重启。需要延长 initialDelaySeconds 或 StartProbe 来保护慢启动容器。

TCP 探测方式不能完全真实反映业务健康状态，导致在优雅终止过程中，ReadinessProbe 探测成功让流量放进来而业务却不会处理，导致流量异常。需要使用更好的探测方式，建议业务提供 HTTP 探活接口，使用 HTTP 探测业务真实健康状态。

现象描述

容器进程主动退出（不是被外界中断停止）时，退出状态码通常在0 - 128之间。根据规定，正常退出时状态码为0，状态码为1 - 127则说明为程序发生异常导致其主动退出。例如，当检测到程序启动参数和条件不满足要求，或者程序运行过程中发生 panic 但没有捕获处理就会导致程序主动退出。可首先参考通过 Exit Code 定位 Pod 异常退出原因查看对应容器进程的退出状态码，缩小异常问题范围。