Kubernetes kubelet 状态上报/节点资源的管理

富士康质检员张全蛋

已于 2023-08-10 14:30:26 修改

阅读量2.1k

点赞数 1

分类专栏： Kubernetes kubelet 文章标签： kubernetes

于 2022-08-21 10:46:23 首次发布

本文链接：https://blog.csdn.net/qq_34556414/article/details/126413559

版权

Kubernetes kubelet 专栏收录该内容

34 篇文章

订阅专栏

节点资源管理

计算节点除 CPU 、内存和存储等硬件相关资源外，还有操作系统资源，例如进程上限、磁盘I/O 等。在 Kubernetes 集群中，同一节点上会运行多个不同应用的容器进程。不可避免地，这些进程会共享节点资源，并可能发生资源竞争。合理的节点资源管理能提高节点资源利用率，避免相邻进程彼此干扰，保证系统服务正常运行。

Kubernetes 计算节点资源管理方案已渐趋成熟：具体体现在状态汇报、资源预留、防止节点资源耗尽的防御机制驱逐及容器和系统资源的配置。

NUMA

针对多核的计算机架构，一个计算机上面会有多个CPU的插槽，它也会有多个内存的插槽，这样从硬件体系来看，不同的CPU和内存联动的关系就不一样的，可以看到每个numa node有独立的cpu和内存。

所以的话cpu在访问内存的时候，如果这些内存在不同的numa节点上面，它们的访问效率是不一样的。

节点资源管理

状态上报

kubelet 是部署在每个Kubernetes 节点上、负责Pod 生命周期及节点状态上报的组件。它周期性地向 API Server 进行汇报，并更新节点的相关健康和资源使用信息，以供Kubernetes 的控制平面模块对节点和节点上的Pod 进行管理和决策。上报信息如下：

节点基础信息，包括IP 地址、操作系统、内核、运行时、kubelet、kube-proxy 版本信息。部分信息直接从节点获取，而部分信息需要调用云提供商的API 获取。
节点资源信息包括CPU、内存、Hugepage、临时存储、GPU 等注册设备，以及这些资源中可以分配给容器使用的部分。
调度器在为Pod 选择节点时会将机器的状态信息作为依据。表2-6 展示了节点状态及其代表的意义。比如Ready 状态反映了节点是否就绪，True 表示节点健康；False 表示节点不健康；Unknown 表示节点控制器在最近40s 内没有收到节点的消息。调度器在调度Pod 时会过滤掉所有Ready 状态为非True 的节点。

以下三个参数可以控制kubelet 更新节点状态频率：

NodeStatusUpdateFrequency
NodeStatusReportFrequency
NodeLeaseDurationSeconds

早期版本只有 NodeStatusUpdateFrequency ，默认配置下所有节点每隔 10s 上报一次状态，而上报的信息包含状态信息和资源信息，因此需要传输的数据包较大。随着集群规模的增长，状态的频繁更新对控制平面组件造成较大压力：与节点相关的控制器会不断接收节点变更通知，从而增加控制器开销；极端场景中，它甚至会使etcd 迅速到达其存储上限；节点IP 地址等要上报的信息需要从云提供商的 API 获取，因此频繁的调用对底层云平台也造成较大压力。

自 1.12 版本起， Kubernetes 引入了 NodeLease 特性：将上报信息划分为更新表 2-6 中罗列的节点状态和Lease 对象。 Kubernetes 为每个节点创建一个轻量级的 Lease 对象，该对象只包含最基本的节点信息。它的频繁变更对系统造成的压力，会比直接更新节点对象小很多。

kubelet 在节点状态发生变更或者默认一分钟的 NodeStatusReportFrequency 时钟周期到达时，更新节点的状态信息，同时以默认10s 的 NodeStatusUpdateFrequency 周期更新 Lease 对象。在默认 40s 的 NodeLeaseDurationSeconds 周期内，若 Lease 对象没有被更新，则对应节点可以被判定为不健康。

kube-scheduler 在调度 Pod 时会根据节点状态来决定是否可以将新的 Pod 调度到该节点

上，以免让本来处于不健康状态的节点的情况进一步恶化。

状态上报

kubelet最重要的职责是去监听APIServer，然后有任何pod清单的变更，它要来处理这个pod的生命周期，另外就是间歇性的汇报节点的状态，往apiserver去上报。

上报有两部分内容，一部分是节点的健康信息，也就是这个节点是不是还活着，第二个就是节点的资源使用情况。

这个资源使用情况更多的是及时的汇报给集群，让apiserver知道从资源使用情况来说资源承载的压力是怎么样的。

如果有内存压力或者磁盘压力，那么调度器就不应该将pod再调度过去了。

Lease

状态如何上报的，在早期kubelet的版本里面，通常健康状况和资源使用情况是一起上报的，那么每次上报第一要确保时效性，因为你周期太长的话，节点坏了，APIserver看你还不知道，那么就需要保持时效性，汇报的频度就比较快，汇报频度快，每次都带着详细信息，那么就意味着数据传输量比较大，节点层面信息量不一定大，但是集群很大的时候，那么apiserver承受的并发压力还是不小的。

后期资源上报和健康状态的上报都被拆离开来了，健康状态的上报就是通过lease对象去上报的，默认上报会以40s为周期不断的向上汇报，资源使用情况是使用更加慢的频率去上报的。

kubectl describe node xx所看的这些信息都会统一上报，这些信息是按照资源信息去去上报的。

可以看到每个节点都有lease对象，这个lease对象里面存的是，之前说controller manager的时候说过，当多个节点要去持有，想去开启leader election模式的时候，当有多个控制器，那么就需要一个人去抢锁，抢到锁之后就需要不停的renew，其他人抢不到这个锁，它就要一直监听，直到leader没有renew及时renew，它的任期过期了，那么后面的人就可以获取锁继续指向。

所以都会有个任期的概念，所以为了支持这种模式，后期k8s就将任期变为了一个对象叫做lease这样一个对象，这个对象就适用于leader election场景，对于新版本的k8s的leader election不用去创建configmap或者secret或者endpoint，你应该依赖的对象就是lease对象，所以lease对象的spec就是将我们之前看到的configmap里面的或者endpoint里面的annotation变为标准化了。