设置K8s管理节点异常容忍时间

说明

每个节点上的 kubelet 需要定时向 apiserver 上报当前节点状态,如果两者间网络异常导致心跳终端,kube-controller-manager 中的 NodeController 会将该节点标记为 Unknown 或 Unhealthy,持续一段时间异常状态后 kube-controller-manager 会将该节点上的所有 pod 驱逐(1.24 版本后驱逐通过 taint toleration 实现)。

为了防止发生大面积 pod 驱逐,需要修改 kube-controller-manager 的以下参数:

● --pod-eviction-timeout duration The grace period for deleting pods on failed nodes. (default 5m0s)
● --node-monitor-grace-period duration Amount of time which we allow running Node to be unresponsive before marking it unhealthy. Must be N times more than kubelet’s nodeStatusUpdateFrequency, where N means number of retries allowed for kubelet to post node status. (default 40s)

修改方式

编辑所有管理节点的 /etc/kubernetes/manifests/kube-controller-manager.yaml 文件,在 spec.containers.command 增加如下命令行参数:

- --pod-eviction-timeout=180m
- --node-monitor-grace-period=180m

在这里插入图片描述
重启进程,或者移动配置文件,如果没有变化重启kubelet
在这里插入图片描述

Kubernetes (K8s) 中的节点通常使用HAProxy作为负载均衡器,以管理集群中的服务流量。如果HAProxy在K8S节点上遇到异常,可能会导致以下几种问题: 1. **服务不可达**:HAProxy可能无法正常路由请求到后端Pod,导致客户端请求失败,显示502 Bad Gateway错误。 2. **连接超时**:如果HAProxy自身出现性能瓶颈或配置错误,可能导致连接到后端服务的时间过长,超时中断。 3. **日志错误**:查看HAProxy的日志文件(如/kube-proxy/logs/haproxy.log)可能会发现关于连接问题、配置解析错误或服务定义不正确的信息。 4. **服务健康检查失败**:K8s中,后端服务的健康检查也可能因为HAProxy的问题而失败,导致节点被从服务中移除。 5. **配置更改冲突**:如果HAProxy的配置文件被意外更新或手动修改,可能破坏了原有的负载均衡策略。 要解决这个问题,你可以采取以下步骤: - **检查HAProxy状态**:查看是否运行正常,是否有异常进程或错误日志。 - **检查配置文件**:对比当前配置与预期配置,确保没有语法错误和目标服务的正确引用。 - **重启HAProxy**:尝试重启服务来恢复默认配置,看是否能解决问题。 - **查看K8s事件**:通过kubectl get events命令,查看K8s是否有关于HAProxy的警告或错误事件。 - **检查服务的外部依赖**:确认后端服务的网络和硬件资源是否正常。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值