kubernetes上节点node.kubernetes.io/disk-pressure:NoSchedule污点导致pod 被驱逐

现象:

k8s集群中某台计算节点上pod大量处于驱逐状态,通过describe node发现该node上有Taints: node.kubernetes.io/disk-pressure:NoSchedule 污点。

分析:

查阅文档提示磁盘不足,因为时间紧张,就快速通过df -h命令查看当前磁盘情况,并在可疑的主要目录执行du -d 1 -h |sort -hr查看文件夹大小并删除一部分无用文件。结果k8s node一直没有恢复,仔细分析才先该机器有两块磁盘,一个根分区, 一个是/var/lib/docker/.

kubelet日志

I0713 14:00:43.413075  184655 helpers.go:838] eviction manager: thresholds - grace periods satisified: threshold [signal=imagefs.available, quantity=566938204979] observed 544467224Ki

k8s提到
硬驱逐阈值的配置支持下列标记:

eviction-hard 描述了驱逐阈值的集合(例如 memory.available<1Gi),如果满足条件将触发 pod 驱逐。
kubelet 有如下所示的默认硬驱逐阈值:

memory.available<100Mi
nodefs.available<10%
nodefs.inodesFree<5%
imagefs.available<15%

其中
kubelet 只支持两种文件系统分区。

nodefs 文件系统,kubelet 将其用于卷和守护程序日志等。
imagefs 文件系统,容器运行时用于保存镜像和容器可写层。
imagefs可选。kubelet使用 cAdvisor 自动发现这些文件系统。kubelet不关心其它文件系统。当前不支持配置任何其它类型。例如,在专用文件系统中存储卷和日志是不可以的。

结果:

将/var/lib/docker 所在磁盘空间也清理到已使用空间小于85%, node污点自动消失。当然我们也可以配置kubelet启动参数,将其中阈值设置的更激进,比如images可用空间小于10%才报警之类的。

备注:

刚清理完磁盘空间,node不会立刻将disk-pressure污点去除,因为node刷新有固定频率的,不过可以自行更改kubelet的参数–node-status-update-frequency

–node-status-update-frequency - 指定 kubelet 向控制面组件发送状态的频率

引用:
https://kubernetes.io/zh/docs/tasks/administer-cluster/out-of-resource/
https://kubernetes.io/docs/tasks/administer-cluster/out-of-resource/
https://kubernetes.io/zh/docs/concepts/architecture/nodes/

这个错误提示是因为 Kubernetes 集群中的节点出现污点 (Taint)。污点是指节点上的一些标记,用于表明节点的一些特属性或状态,例如节点上硬盘容量不足。当一个 Pod 需要调度到某个节点上时,Kubernetes 会根据 Pod 的需求和节点的状态来判断是否可以将其调度到该节点上。如果节点上的污点Pod 的需求不匹配,那么该节点就会被排除在调度的范围之外,从而导致 Pod 调度失败。 根据这个错误提示,您的 Kubernetes 集群中有两个节点出现了污点:一个是控制平面节点上的 node-role.kubernetes.io/control-plane 污点,另一个是某个节点上的 node.kubernetes.io/disk-pressure 污点。其中,node-role.kubernetes.io/control-plane 污点用于标记控制平面节点,通常不应该将其他类型的 Pod 调度在控制平面节点上。而 node.kubernetes.io/disk-pressure 污点则表示该节点上的硬盘容量不足。 为了解决这个问题,您可以采取以下几个步骤: 1. 查看节点状态:使用 kubectl get nodes 命令查看节点的状态,确认哪些节点上出现了污点。 2. 解除污点:使用 kubectl taint nodes 命令解除节点上的污点,例如:kubectl taint nodes node1 node-role.kubernetes.io/control-plane=:NoSchedule 可以解除节点 node1 上的控制平面污点,从而允许其他类型的 Pod 调度到该节点上。 3. 节点维护:如果污点是由于节点上的硬盘容量不足导致的,那么您可以考虑对该节点进行维护,扩容硬盘容量或清理无用数据。在进行节点维护之前,需要使用 kubectl drain 命令将该节点上的 Pod 调度到其他节点上,避免数据丢失或服务中断。 希望这些信息能够帮助您解决问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值