Kubernetes节点故障排查与监控工具-CSDN博客

本文链接：https://blog.csdn.net/qiaotl/article/details/125724608

k8s中故障排查可以分为节点的故障排查和kubernetes组件故障排查两大类。例如：基础架构守护进程问题，如NTP服务关闭，硬件问题：cpu、内存或者磁盘损坏，内核问题：内核死锁，文件系统损坏，容器运行时问题，例如运行的守护进程无响应。当kubernetes节点发生这些问题时，k8s服务组件并不能感知以上问题，会导致Pod仍然会调度到问题节点。为了解决该问题，社区引入了守护进程node-problem-detector，守护进程收集节点问题，并上报到api-server。例如可以诊断Runtime无响应，Linux Kernel无响应，网络异常，文件描述符异常，硬件问题如cpu，内存，磁盘等故障。
node-problem-detector通过设置NodeCondition或者创建Event对象来汇报问题，汇报问题有两种方式。
方式一：NodeCondition：针对永久性故障，会通过设置NodeCondition来改变节点状态。
方式二：临时故障通过Event来提醒相关对象，比如通知当前节点运行的所有Pod。
需要注意的是NPD只负责获取异常事件，并修改node condition，不会对节点状态和调度产生影响，所以需要自定义控制器，监听NPD汇报的condition，如果发现上报了节点出错的信息后，那么可以给node打上taint，这样就可以阻止Pod调度到故障节点，当问题修复后，重启NPD Pod来清理错误事件。node-problem-detector详细信息可查看官网信息。

可以通过helm的方式安装node-problem-detector，安装完成后可以通过kubectl get pod方式查看安装后的node-problem-detector，另外，安装node-problem-detector后，除了启动pod后，还会启动对应的daemonset。该集群上加上master节点，总共有3个节点，其中有个节点是NotReady状态，故helm安