文章目录
一、深入理解Pod对象:调度
- 创建一个Pod的工作流程
- Pod中影响调度的主要属性
- 资源限制对Pod调度的英雄
- nodeSelector & nodeAffinity
- Tain(污点)& Tolerations(污点容忍)
- nodeName
Kubernetes Scheduler 是 Kubernetes 控制平面的核心组件之一。它在控制平面上运行,将 Pod 分配给节点,同时平衡节点之间的资源利用率。将 Pod 分配给新节点后,在该节点上运行的 kubelet 会在 Kubernetes API 中检索 Pod 定义,根据节点上的 Pod 规范创建资源和容器。换句话说,Scheduler 在控制平面内运行,并将工作负载分配给 Kubernetes 集群。
参考资料地址:
二、创建一个Pod的工作流程
Kubernetes基于list-watch机制的控制器架构,实现组件间交互的解耦。
其他组件监控自己负责的资源,当这些资源发生变化时,kube-apiserver会通知这些组件,这个过程类似于发布与订阅。
三、资源限制对Pod调度的影响
容器资源限制:
- resources.limits.cpu
- resources.limits.memory
容器使用的最小资源需求,作为容器调度时资源分配的依据: - resources.requests.cpu
- resources.requests.memory
cpu单位:也可以写m也可以写浮点数,例如0.5=500m,1=1000m
apiVersion: v1
Kind: Pod
metadata:
name: web
spec:
containers:
- name: web
image: nginx
resources:
requests:
memory: "64Mi"
cpu: "250m"
limits: // 最少
memory: "128Mi"
cpu: "500m"
K8s会根据 request的值去查找有足够资源的 Node来调度此 Pod
四、nodeSelector & nodeAffinity & podAffinity
4.1 节点选择器
nodeSelector:
用于将 Pod调度到匹配 Label的 Node上,如果没有匹配的标签会调度失败。作用:
- 约束 Pod到特点的节点运行
- 完全匹配节点标签
应用场景:
- 专用节点:根据业务将 Node分组管理
- 配置特殊硬件:部分 Node配有 SSD硬盘、GPU
查看 node 的 label:
[root@master ~]# kubectl get nodes --show-labels
NAME STATUS ROLES AGE VERSION LABELS
master Ready control-plane,master 5d10h v1.23.1 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=master,kubernetes.io/os=linux,node-role.kubernetes.io/control-plane=,node-role.kubernetes.io/master=,node.kubernetes.io/exclude-from-external-load-balancers=
node1.example.com Ready <none> 5d10h v1.23.1 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=node1.example.com,kubernetes.io/os=linux
node2.example.com Ready <none> 5d10h v1.23.1 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=node2.example.com,kubernetes.io/os=linux
现在我们先给节点 node1 增加一个 app=amu的标签,命令如下:
[root@master ~]# kubectl label nodes node1.example.com app=amu
node/node1.example.com labeled
我们可以通过上面的 --show-labels参数可以查看上述标签是否生效。当 node 被打上了相关标签后,在调度的时候就可以使用这些标签了,只需要在 POD 的 spec 字段中添加 nodeSelector字段,里面是我们需要被调度的节点的 label。例如,下面是我们之前的一个默认的 busybox POD 的 YAML文件:
// 标签添加成功
[root@master ~]# kubectl get nodes --show-labelsNAME STATUS ROLES AGE VERSION LABELS
master Ready control-plane,master 5d10h v1.23.1 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=master,kubernetes.io/os=linux,node-role.kubernetes.io/control-plane=,node-role.kubernetes.io/master=,node.kubernetes.io/exclude-from-external-load-balancers=
node1.example.com Ready <none> 5d10h v1.23.1 app=amu,beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=node1.example.com,kubernetes.io/os=linux
node2.example.com Ready <none> 5d10h v1.23.1 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=node2.example.com,kubernetes.io/os=linux
[root@master ~]# cat test.yaml
```bash
apiVersion: v1
kind: Pod
metadata:
labels:
app: busybox-pod
name: test-busybox
spec:
containers:
- command:
- sleep
- "3600"
image: busybox
imagePullPolicy: Always
name: test-busybox
然后我需要让上面的 POD 被调度到 node1的节点上,那么最简单的方法就是去匹配 node1上面的 label,如下:
[root@master ~]# cat test.yaml
apiVersion: v1
kind: Pod
metadata:
labels:
app: busybox-pod
name: test-busybox
spec:
containers:
- command:
- sleep
- "3600"
image: busybox
imagePullPolicy: Always
name: test-busybox
nodeSelector:
source: qikqiak
[root@master ~]# kubectl apply -f test.yaml
pod/test-busybox created
[root@master ~]# kubectl get pods
NAME READY STATUS RESTARTS AGE
test-busybox 1/1 Running 0 12m
然后我们可以通过 describe 命令查看调度结果:
[root@master ~]# kubectl describe pod test-busybox
Name: test-busybox
Namespace: default
Priority: 0
Node: node1.example.com/192.168.91.137
Start Time: Thu, 23 Dec 2021 22:22:07 +0800
Labels: app=busybox-pod // 容器标签
Annotations: <none>
Status: