k8s常用故障排查方式

k8s中故障排查可以分为节点的故障排查和kubernetes组件故障排查两大类。例如:基础架构守护进程问题,如NTP服务关闭,硬件问题:cpu、内存或者磁盘损坏,内核问题:内核死锁,文件系统损坏,容器运行时问题,例如运行的守护进程无响应。当kubernetes节点发生这些问题时,k8s服务组件并不能感知以上问题,会导致Pod仍然会调度到问题节点。为了解决该问题,社区引入了守护进程node-problem-detector,守护进程收集节点问题,并上报到api-server。例如可以诊断Runtime无响应,Linux Kernel无响应,网络异常,文件描述符异常,硬件问题如cpu,内存,磁盘等故障。
node-problem-detector通过设置NodeCondition或者创建Event对象来汇报问题,汇报问题有两种方式。
方式一:NodeCondition:针对永久性故障,会通过设置NodeCondition来改变节点状态。
方式二:临时故障通过Event来提醒相关对象,比如通知当前节点运行的所有Pod。
需要注意的是NPD只负责获取异常事件,并修改node condition,不会对节点状态和调度产生影响,所以需要自定义控制器,监听NPD汇报的condition,如果发现上报了节点出错的信息后,那么可以给node打上taint,这样就可以阻止Pod调度到故障节点,当问题修复后,重启NPD Pod来清理错误事件。node-problem-detector详细信息可查看官网信息

可以通过helm的方式安装node-problem-detector,安装完成后可以通过kubectl get pod方式查看安装后的node-problem-detector,另外,安装node-problem-detector后,除了启动pod后,还会启动对应的daemonset。该集群上加上master节点,总共有3个节点,其中有个节点是NotReady状态,故helm安

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

taoli-qiao

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值