k8s集群故障问题处理

小黄人V

已于 2023-02-15 17:51:32 修改

阅读量1.8k

点赞数

分类专栏：容器技术文章标签： json vue.js java

于 2021-04-29 14:58:24 首次发布

本文链接：https://blog.csdn.net/m0_37845900/article/details/116269309

版权

容器技术专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文章只介绍k8s pod下可能出现的故障问题

k8s node master这些问题现在给阿里云托管所以以下不会介绍这些问题但是会精简说一下k8s集群外部所遇到的问题

集群内部问题
1 Pod 一直处于 Pending 状态
可能的原因包括
 资源不足，集群内所有的 Node 都不满足该 Pod 请求的 CPU、内存、
GPU 或者临时存储空间等资源。解决方法是删除集群内不用的 Pod 或者
增加新的 Node。  HostPort 端口已被占用，通常推荐使用 Service 对外开放服务端口

2 Pod 一直处于 Waiting 或 ContainerCreating 状态
可能的原因有以下几种
 镜像拉取失败，比如
o 配置了错误的镜像
o Kubelet 无法访问镜像（国内环境访问 gcr.io 需要特殊处理）
o 私有镜像的密钥配置错误
o 镜像太大，拉取超时（可以适当调整 kubelet 的 --image-pullprogress-deadline 和 --runtime-request-timeout 选项）
 CNI 网络错误，一般需要检查 CNI 网络插件的配置，比如
o 无法配置 Pod 网络
o 无法分配 IP 地址
 容器无法启动，需要检查是否打包了正确的镜像或者是否配置了正确的
容器参数
3 Pod 处于 ImagePullBackOff 状态
这通常是镜像名称配置错误或者私有镜像的密钥配置错误导致。这种情
况可以使用 docker pull 来验证镜像是否可以正常拉取。
4 Pod 一直处于 CrashLoopBackOff 状态

CrashLoopBackOff 状态说明容器曾经启动了，但又异常退出了。此时 Pod 的 RestartCounts
通常是大于 0 的，可以先查看一下容器的日志

这里可以发现一些容器退出的原因，比如
 容器进程退出
 健康检查失败退出
 OOMKilled

5 Pod 处于 Error 状态

通常处于 Error 状态说明 Pod 启动过程中发生了错误。常见的原因包括
 依赖的 ConfigMap、Secret 或者 PV 等不存在
 请求的资源超过了管理员设置的限制，比如超过了 LimitRange 等  违反集群的安全策略，比如违反了 PodSecurityPolicy 等  容器无权操作集群内的资源，比如开启 RBAC 后，需要为
ServiceAccount 配置角色绑定

6 Pod 处于 Terminating 或 Unknown 状态
从集群中删除该 Node。使用公有云时，kube-controller-manager 会在 VM
删除后自动删除对应的 Node。而在物理机部署的集群中，需要管理员手动删除
Node（如 kubectl delete node 。  Node 恢复正常。Kubelet 会重新跟 kube-apiserver 通信确认这些 Pod 的
期待状态，进而再决定删除或者继续运行这些 Pod。  用户强制删除。用户可以执行 kubectl delete pods --graceperiod=0 --force 强制删除 Pod。除非明确知道 Pod 的确处于停止状态（比
如 Node 所在 VM 或物理机已经关机），否则不建议使用该方法。特别是
StatefulSet 管理的 Pod，强制删除容易导致脑裂或者数据丢失等问题。

处于 Terminating 状态的 Pod 在 Kubelet 恢复正常运行后一般会自动删除。但有时
也会出现无法删除的情况，并且通过 kubectl delete pods --grace-period=0
–force 也无法强制删除。此时一般是由于 finalizers 导致的，通过 kubectl edit
将 finalizers 删除即可解决。

7 Pod 行为异常
这里所说的行为异常是指 Pod 没有按预期的行为执行，比如没有运行 podSpec
里面设置的命令行参数。这一般是 podSpec yaml 文件内容有误，可以尝试使
用 --validate 参数重建容器，比如

集群外部网络异常问题

介绍各种常见的网络问题以及排错方法，包括 Pod 访问异常、Service 访问异常以及网络安
全策略异常等。
 Pod 访问容器外部网络
 从容器外部访问 Pod 网络
 Pod 之间相互访问
当然，以上每种情况还都分别包括本地访问和跨主机访问两种场景，并且一般
情况下都是通过 Service 间接访问 Pod。
网络异常可能的原因比较多，常见的有
 CNI 网络插件配置错误，导致多主机网络不通，比如
o IP 网段与现有网络冲突
o 插件使用了底层网络不支持的协议
o 忘记开启 IP 转发等
 sysctl net.ipv4.ip_forward
 sysctl net.bridge.bridge-nf-call-iptables
 Pod 网络路由丢失，比如
o kubenet 要求网络中有 podCIDR 到主机 IP 地址的路由，这些路
由如果没有正确配置会导致 Pod 网络通信等问题
o 在公有云平台上，kube-controller-manager 会自动为所有 Node
配置路由，但如果配置不当（如认证授权失败、超出配额等），
也有可能导致无法配置路由
 主机内或者云平台的安全组、防火墙或者安全策略等阻止了 Pod 网络，
比如
o 非 Kubernetes 管理的 iptables 规则禁止了 Pod 网络
o 公有云平台的安全组禁止了 Pod 网络（注意 Pod 网络有可能与
Node 网络不在同一个网段）
o 交换机或者路由器的 ACL 禁止了 Pod 网络
Service 无法访问
访问 Service ClusterIP 失败时，可以首先确认是否有对应的 Endpoints
kubectl get endpoints
如果该列表为空，则有可能是该 Service 的 LabelSelector 配置错误，可以
用下面的方法确认一下

查询 Service 的 LabelSelector

查询匹配 LabelSelector 的 Pod

kubectl get pods -l key1=value1,key2=value2
如果 Endpoints 正常，可以进一步检查
 Pod 的 containerPort 与 Service 的 containerPort 是否对应
 直接访问 podIP:containerPort 是否正常
再进一步，即使上述配置都正确无误，还有其他的原因会导致 Service 无法访
问，比如
 Pod 内的容器有可能未正常运行或者没有监听在指定的 containerPort
上  CNI 网络或主机路由异常也会导致类似的问题
 kube-proxy 服务有可能未启动或者未正确配置相应的 iptables 规则，
比如正常情况下名为 hostnames 的服务会配置以下 iptables 规则
9.5 Volume 异常处理
持久化存储异常（PV、PVC、StorageClass 等）的排错方法。
一般来说，无论 PV 处于什么异常状态，都可以执行 kubectl
describe pv/pvc 命令来查看当前 PV 的事件。这些事
件通常都会有助于排查 PV 或 PVC 发生的问题。

集群外部组件问题

按照不同的组件来说，具体的原因可能包括
 kube-apiserver 无法启动会导致
o 集群不可访问
o 已有的 Pod 和服务正常运行（依赖于 Kubernetes API 的除外）
 etcd 集群异常会导致
o kube-apiserver 无法正常读写集群状态，进而导致 Kubernetes
API 访问出错
o kubelet 无法周期性更新状态
 kube-controller-manager/kube-scheduler 异常会导致
o 复制控制器、节点控制器、云服务控制器等无法工作，从而导致
Deployment、Service 等无法工作，也无法注册新的 Node 到集
群中来
o 新创建的 Pod 无法调度（总是 Pending 状态）
 Node 本身宕机或者 Kubelet 无法启动会导致
o Node 上面的 Pod 无法正常运行
o 已在运行的 Pod 无法正常终止

小黄人V

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
k8s集群故障问题处理

本文章只介绍k8s pod下可能出现的故障问题k8s node master这些问题现在给阿里云托管所以以下不会介绍这些问题但是会精简说一下k8s集群外部所遇到的问题集群内部问题1 Pod 一直处于 Pending 状态可能的原因包括 资源不足，集群内所有的 Node 都不满足该 Pod 请求的 CPU、内存、GPU 或者临时存储空间等资源。解决方法是删除集群内不用的 Pod 或者增加新的 Node。  HostPort 端口已被占用，通常推荐使用 Service 对外开放服务端口
复制链接

扫一扫

专栏目录