集群调度
键值运算关系
- In:label 的值在某个列表中
- NotIn:label 的值不在某个列表中
- Gt:label 的值大于某个值
- Lt:label 的值小于某个值
- Exists:某个 label 存在
- DoesNotExist:某个 label 不存在
Pod与Node之间的亲和性
pod.spec.affinity.nodeAffinity
- preferredDuringSchedulingIgnoredDuringExecution:软策略
- requiredDuringSchedulingIgnoredDuringExecution:硬策略
preferredDuringSchedulingIgnoredDuringExecution
apiVersion: v1
kind: Pod
metadata:
name: affinity
labels:
app: node-affinity-pod
spec:
containers:
- name: mynginx
image: mynginx:v1
affinity:
nodeAffinity:
preferredDuringSchedulingIgnoredDuringExecution:
- weight: 1
preference:
matchExpressions:
- key: kubernetes.io/hostname
operator: In
values:
- node1
运行上述yaml文件,如果存在kubernetes.io/hostname =node1,pod会创建在该节点上,如果不存在node1,pod会随机创建在某个节点上
requiredDuringSchedulingIgnoredDuringExecution
apiVersion: v1
kind: Pod
metadata:
name: affinity2
labels:
app: node-affinity-pod2
spec:
containers:
- name: with-node-affinity2
image: mynginx:v2
affinity:
nodeAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
nodeSelectorTerms:
- matchExpressions:
- key: kubernetes.io/hostname
operator: In
values:
- node1
运行上述yaml文件,pod一定会运行在kubernetes.io/hostname =node1节点上,如果不存在node1节点,pod会一直初始化。
#查看节点标签
$ kubectl get node --show-labels
NAME STATUS ROLES AGE VERSION LABELS
master Ready master 63d v1.18.6 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=master,kubernetes.io/os=linux,node-role.kubernetes.io/master=
work1 Ready <none> 63d v1.18.6 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=node1,kubernetes.io/os=linux6
#查看pod标签
$ kubectl get pod --show-labels
NAME READY STATUS RESTARTS AGE LABELS
affinity 1/1 Running 0 70m app=node-affinity-pod
affinity2 1/1 Running 0 61m app=node-affinity-pod2
pod-3 1/1 Running 0 102s app=pod-3
#为节点或者pod打标签
$ kubectl label node 节点名称 key=value
$ kubectl label pod pod名称 key=value
Pod与Pod之间的亲和性
pod.spec.affinity.podAffinity/podAntiAffinity
- preferredDuringSchedulingIgnoredDuringExecution:软策略
- requiredDuringSchedulingIgnoredDuringExecution:硬策略
apiVersion: v1
kind: Pod
metadata:
name: pod-3
labels:
app: pod-3
spec:
containers:
- name: con-3
image: mynginx:v1
affinity:
podAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
- labelSelector:
matchExpressions:
- key: app
operator: In
values:
- node-affinity-pod
topologyKey: kubernetes.io/hostname
podAntiAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
- labelSelector:
matchExpressions:
- key: app
operator: In
values:
- pod-2
topologyKey: kubernetes.io/hostname
运行上述yaml文件,首先通过标签topologyKey判断是否是同一拓扑域,在拓扑域内如果存在app =node-affinity-pod的pod并且不存在app=pod-2,那么新建的Pod会在创建在该拓扑域内,因为yaml文件中为kubernetes.io/hostname,所以同一个node就是同一个拓扑域,如果换成beta.kubernetes.io/os,那么master与node1节点也为同一拓扑域
亲和性/反亲和性调度策略比较如下
调度策略 | 匹配标签 | 操作符 | 拓扑域支持 | 调度目标 |
---|---|---|---|---|
nodeAffinity | 主机 | In, NotIn, Exists,DoesNotExist, Gt, Lt | 否 | 指定主机 |
podAffinity | POD | In, NotIn, Exists,DoesNotExist | 是 | POD与指定POD同一拓扑域 |
podAnitAffinity | POD | In, NotIn, Exists,DoesNotExist | 是 | POD与指定POD不在同一拓扑域 |
污点(Taint)
组成
使用 kubectl taint 命令可以给某个节点设置污点,节点被设置上污点之后就和 Pod 之间存在了一种相斥的关系,可以让 节点拒绝 Pod 的调度执行,甚至将节点已经存在的 Pod 驱逐出去。
key=value:effect
每个污点有一个 key 和 value 作为污点的标签,其中 value 可以为空,effect 描述污点的作用。当前effect 支持如下三个选项:
- NoSchedule :表示 k8s 将不会将 Pod 调度到具有该污点的 Node 上
- PreferNoSchedule :表示 k8s 将尽量避免将 Pod 调度到具有该污点的 Node 上
- NoExecute :表示 k8s 将不会将 Pod 调度到具有该污点的 Node 上,同时会将 Node 上已经存在的 Pod 驱逐出去
污点的设置、查看和去除
# 节点说明中,查找 Taints 字段,查看master节点的污点为NoSchedule,这也就是pod只会创建在node节点上的原因
$ kubectl describe node master | grep Taint
Taints: node-role.kubernetes.io/master:NoSchedule
# 设置污点
$ kubectl taint node 节点名 key=value:effect
# 去除污点
$ kubectl taint node 节点名 key=value:effect-
容忍(Tolerations)
设置了污点的节点将根据 taint 的 effect:NoSchedule、PreferNoSchedule、NoExecute 和 Pod 之间产生互斥的关系,Pod 将在一定程度上不会被调度到节点上。但我们可以在 Pod 上设置容忍 ( Tolerations ) ,意思是设置了容忍的 Pod 将可以容忍污点的存在,可以被调度到存在污点的 Node 上。
pod.spec.tolerations
apiVersion: v1
kind: Pod
metadata:
name: affinity
labels:
app: node-affinity-pod
spec:
containers:
- name: with-node-affinity
image: hub.atguigu.com/library/myapp:v1
tolerations:
- key: "key"
operator: "Equal"
value: "value"
effect: "NoSchedule"
- key: "key"
operator: "Equal"
value: "value"
effect: "NoExecute"
tolerationSeconds: 3600
- 其中 key, vaule, effect 要与节点上设置的 taint 保持一致
- operator 的值Equal、Exists。默认Equal,为Exists 将会忽略 value 值
- 当设置tolerationSeconds 时,effect必须是NoExecute。用于描述当 Pod 需要被驱逐时可以在 Pod 上继续保留运行的时间,单位秒
有多个 Master 存在时,防止资源浪费,可以如下设置
$ kubectl taint nodes 节点名 node-role.kubernetes.io/master=:PreferNoSchedule
固定节点调度
Pod.spec.nodeName
将 Pod 直接调度到指定的 Node 节点上,会跳过 Scheduler 的调度策略,该匹配规则是强制匹配
apiVersion: apps/v1
kind: Deployment
metadata:
name: myweb
spec:
replicas: 3
selector:
matchLabels:
app: myweb
template:
metadata:
labels:
app: myweb
spec:
nodeName: master
containers:
- name: mynginx
image: mynginx:v1
ports:
- containerPort: 80
运行上述ymal,myweb控制器会在master的节点上创建3个pod
pod.spec.nodeSelector
通过 kubernetes 的标签选择机制选择节点,由调度器调度策略匹配 label,而后调度 Pod 到目标节点,该匹配规则属于强制约束.
#给node节点打上标签
$ kubectl label node node1 test=nodesel
apiVersion: apps/v1
kind: Deployment
metadata:
name: myweb
spec:
replicas: 3
selector:
matchLabels:
app: myweb
template:
metadata:
labels:
app: myweb
spec:
nodeSelector:
test: nodesel
containers:
- name: mynginx
image: mynginx:v1
ports:
- containerPort: 80