当用户发起一个创建工作负载(如Pod)的请求后,这个工作负载最终将会调度部署在哪个节点上?这些是由scheduler决定的。
1. 调度流程
第一步:预选(Predicate),即排除法,排除哪些明显不符合要求的节点;
第二步:优选(Priority),即根据算法做逆序排序,得分从高到低排列;
第三步:选定(Select),因为可能存在多个节点得分相同的情况,所以需要Select来随机选择一个节点进行部署;
注:一般是资源利用率最低的均衡调度算法;
对于存在特殊需求的工作负载,比如SSD或者GPU等
特殊调度方式:
- 节点亲和性——NodeAffinity(通过NodeSelector属性来调度);
- Pod亲和性和反亲和性——PodAffinity和Pod anti-affinity(通过PodSelector属性来调度),一般反亲和性多存在于接口冲突敏感业务等场景;
- 污点和污点容忍——Taints和Tolerance;
2.1 预选策略(一票否决制):
- CheckNodeCondition,主要是检查节点是否正常ready;
- GeneralPredicates,这是一个策略组合,主要包含HostsName、PodFitsHostPorts、MatchNodeSelector、PodFitsResouces等;
- NoDiskConflict,检查节点上是否存在符合Pod要求的存储券;(默认不启用)
- PodToleratssNodeTaints,检查Pod的容忍是否覆盖节点的所有污点;
- PodToleratesNodeNoExecuteTaints,检查Pod的容忍是否覆盖节点NoExecute类型的污点;(默认不启用)
- CheckNodeLabelPresence:检查节点是否存在某标签;(默认不启用)
- CheckServiceAffinity:将新建的相同Service的Pod尽量放到同一个Node节点上;(默认不启用)
- CheckVolumeBinding:检查节点上已绑定和未绑定的PVC;
- CheckNodeMemoryPressure:检查节点内存资源的压力情况;
- CheckNodeDiskPressure:检查节点磁盘资源是否充足;
- CheckNodePIDPressure:检查节点PID资源是否充足;
- MatchInterPodAffinity:检查节点是否满足Pod的亲和性或反亲和性;
2.2 优选策略(相加总分最高):
- LeastRequested:该策略表示节点CPU和内存的利用率或者空闲情况,得分越高越好;
计算公式:(CPU((Capacity-SUM(Requested))*10/Capacity)+MEM((Capacity-SUM(Requested))*10/Capacity))/2
注:结果为在0~10之间的数值; - MostRequested:该策略表示节点CPU和内存的利用率或者空闲情况,得分越高越好;注意:MostRequested和LeastRequested,两者不能同时存在或者同时使用;(默认不启用)
- BalancedResourceAllocation:该策略用于评估CPU和内存的资源占用率是否相近;
- NodePreferAvoidPods:该策略表示节点倾向于不要运行Pods,具体是根据节点的注解信息来判定;(该策略优先级或权重较大)
- TaintsToleration:该策略是将Pod的Tolerations和Node的Taints进行匹配检查,注意:匹配度越高得分越低;
- SelectorSpreading:该策略是尽可能将Pod调度到与之匹配Selector的Pod越少的节点上得分越高,此为Pod分散之意;
- InterPodAffinity:该策略是将Pod的Affinity和Node进行匹配检查,匹配度越高得分越高;
- NodeAffinity:该策略是检查Pod资源中的NodeSelector对Node进行匹配度检查,匹配度越高得分越高;
- NodeLabel:该策略是检查Node上存在相关标签的数量,越多得分越高;(默认不启用)
- ImageLocality:该策略是用于检查Node上是否存在运行此Pod的镜像,越多越好;(综合考虑节点上已有的且满足Pod运行镜像的数量和体积大小等因素)(默认不启用)
2.3 选定策略:
当优选之后,最高分有多个时,随机选定一个。