kubernetes Scheduler 调度器
Scheduler定义
Scheduler 是 kubernetes 的调度器,主要的任务是把定义的Pod 分配到集群的节点上。听起来非常简单,但有很多要考虑的问题:
- 公平:如何保证每个节点都能被分配资源
- 资源高效利用:集群所有资源最大化被利用
- 效率:调度的性能要好,能够尽快地对大批量的 Pod 完成调度工作
- 灵活:允许用户根据自己的需求控制调度的逻辑
Scheduler 是作为单独的程序运行的,启动之后会一直监听 API Server,获取 PodSpec.NodeName 为空的Pod,对每个Pod都会创建一个 binding,表明该 Pod 应该放到哪个节点上。
Scheduler调度过程
predicate(预选) 、priority(优选)
- 调度分为几个部分,首先是过滤掉不满足条件的节点,这个过程称为 predicate 预选。
- 然后对通过的节点按照优先级排序,这个是priority 优选。
- 最后从中选择优先级最高的节点,如果中间有哪一个步骤出现错误,就直接返回错误。
Ⅰ、predicate 预选算法:
PodFitsResources
:节点上剩余的资源是否大于 Pod 请求的资源。PodFitsHost
:如果 Pod 指定了 NodeName,检查节点名称是否和 NodeName 匹配。PodFistHostPorts
:节点上已经使用的 port ,是否和 pod 申请的 port 冲突。PodSelectorMatches
:过滤掉和 Pod 指定的 label 不匹配的节点。NoDiskConflict
:已经 mount 和 volume 和 pod 指定的 volume不冲突,除非它们都是只读。
如果在 predicate 预选过程中没有合适的节点,Pod 会一直在 Pending
状态,不断重复调度,直到有节点满足条件。经过这个步骤,如果有多个节点满足条件,则会进入 Priorities 优选过程,按照优先级大小对节点进行排序。
Ⅱ、priorities 优选选项:
优先级由一系列键值对组成,键是该优先级项的名称,值是它的权重 (该项的重要性)。这些优先级选项包括如下:
LeastRequestePriority
:通过计算CPU 和 Memory 的使用率来决定权重,使用率越低权重越高。换句话说,这个优先级指标倾向于资源使用比例更低的节点。
BalanceResourceAllocation
:节点上 CPU 和 Memory 使用率越接近,权重越高。这个应该和上面的一起使用,不应该单独使用。
ImageLocalityPriority
:倾向于已经有要使用镜像的节点,镜像总大小值越大,权重越高。
Ⅲ、自定义调度器
除了kubernetes 自带的调度器,也可以编写自己的调度器。通过 spec:schedulername
参数指定调度器的名字,可以为 Pod 选择某个调度器进行调取。
apiVersion: v1
kind: Pod
metadata:
name: annotation-second-scheduler
labels:
name: multischeduler-example
spec:
schedulername: my-scheduler #选择自己指定的调度器
containers:
- name: pod-with-second-annotation-container
image: nginx:1.9.1
固定节点调度 NodeName
Pod.spec.nodeName 将 Pod 直接调度到指定的 Node 节点上,会跳过 Scheduler 的调度策略,该匹配规则是强制匹配。
apiVersion: extensions/v1beta1
kind: Deployment
metadata:
name: myweb
spec:
replicas: 7
selector:
matchLabels:
app: myweb
template:
metadata:
labels:
app: myweb
spec:
nodeName: k8s-node2 #设置固定节点为 Node2
containers:
- name: nginx
image: nginx:1.9.1
ports:
- containerPort: 80
kubectl get pod -o wide
NodeSelector 节点标签固定调度
- 需要在 Node 节点上设置标签,然后匹配
- pod.spec.nodeSelector 通过 K8S 的 label-selector 机制选择节点,由调度器调度策略匹配 label ,然后调度 Pod 到目标节点,该规则属于强制约束。
apiVersion: apps/v1
kind: Deployment
metadata:
name: myweb
spec:
replicas: 7
selector:
matchLabels:
app: myweb
template:
metadata:
labels:
app: myweb
spec:
nodeSelector:
type: backEndNode1 #标签名=标签值
containers:
- name: nginx
image: nginx:1.9.1
ports:
- containerPort: 80
- 执行该剧本:
kubectl create -f nameselector.yaml
此时的 Pod 节点肯定为 Pending,因为并没有为某个节点设置标签 disk,所以需要设置标签 - 为k8s-node1设置标签:
kubectl label nodes k8s-node1 disk=scsi
符合剧本设置的 nameselector 标签后再次查看 Pod 节点状态,如下
Pod 节点扩容
kubectl edit deployment myweb
修改 deployment 的 myweb-Pod 参数
找到 repliacs:
修改成想要扩充的数量
然后 kubectl get pod -o wide
验证是否成功