Kubernetes 清理指定命名空间中失败的 Pod：以 Kubeflow Dashboard 为例

本文链接：https://blog.csdn.net/gs80140/article/details/147977371

Kubernetes 清理指定命名空间中失败的 Pod：以 Kubeflow Dashboard 为例

✅ 第二步：删除所有 Failed 状态的 Pod

✅ 可选操作：清理 Evicted 或 CrashLoopBackOff 的 Pod

🔁 建议：定期自动清理脚本

✅ 结语

Kubernetes 清理指定命名空间中失败的 Pod：以 Kubeflow Dashboard 为例

摘要：

在使用 Kubeflow 部署过程中，经常会遇到部分 Pod 失败（Failed）的情况，尤其是 kubeflow-dashboard 组件中。本文将介绍如何快速清理 infra 命名空间下所有状态为 Failed 的 Pod，保持集群整洁，并提供通用的 Kubernetes 清理命令模板。

正文：

📌 问题背景

在部署 Kubeflow Dashboard 过程中，infra 命名空间下部分 Pod 可能因镜像拉取失败、配置错误或资源不足等问题进入 Failed 状态。这些 Pod 即使已终止，仍占据资源列表，影响排查与调度。

✅ 第一步：查看失败的 Pod

kubectl get pods -n infra --field-selector=status.phase=Failed

示例输出：

NAME                                      READY   STATUS   RESTARTS   AGE
kubeflow-dashboard-frontend-xxxxxxx       0/1     Failed   0          12m
kubeflow-dashboard-backend-xxxxxxxx       0/1     Failed   0          13m

✅ 第二步：删除所有 Failed 状态的 Pod

使用以下一行命令批量删除这些失败的 Pod：

kubectl delete pod -n infra $(kubectl get pods -n infra --field-selector=status.phase=Failed -o jsonpath='{.items[*].metadata.name}')

解释：

kubectl get pods -n infra --field-selector=status.phase=Failed：筛选所有失败状态的 Pod
jsonpath 输出 Pod 名列表
外层 kubectl delete pod 删除这些 Pod

✅ 可选操作：清理 Evicted 或 CrashLoopBackOff 的 Pod

查看所有状态异常的 Pod：

kubectl get pods -n infra | grep -E "Evicted|CrashLoopBackOff|Error"

逐一使用以下命令删除：

kubectl delete pod <pod-name> -n infra

🔁 建议：定期自动清理脚本

可设置定时任务自动清理：

#!/bin/bash
kubectl delete pod -n infra $(kubectl get pods -n infra --field-selector=status.phase=Failed -o jsonpath='{.items[*].metadata.name}')

加入 crontab：

crontab -e
# 每天凌晨2点执行
0 2 * * * /bin/bash /path/to/cleanup_failed_pods.sh

✅ 结语

及时清理失败 Pod 可以避免资源列表混乱，有助于提升系统稳定性和运维效率。对于 Kubeflow 这类复杂部署，推荐将 Pod 状态监控与清理自动化结合，实现智能运维。

如需进一步自动化或仅清理某种标签的 Pod，也可以留言获取更具体命令支持。