k8s调度、污点、容忍、不可调度、排水、数据卷挂载

最新推荐文章于 2024-09-06 23:23:29 发布

Alone8046

最新推荐文章于 2024-09-06 23:23:29 发布

阅读量965

点赞数 14

文章标签： kubernetes 容器云原生

本文链接：https://blog.csdn.net/Alone8046/article/details/141884916

版权

一、Kubernetes的list-watch机制

1、List-watch

K8S集群中，通过List-watch机制进行每个组件的协作，保持数据同步。这种设计可以实现每个组件之间的解耦

kubectl配置文件，统一向集群内部apiserver发送命令——通过apiserver把命令发送到各个组件

创建成功之后，kubectl get pod，kubectl describe pod nginx查看信息——在ETCD数据库中

List-watch会在每一步把监听的消息（apiserver:6443）——组件controller-manager、schedule、kubelet、ETCD都会监听apiserver的6443端口

2、创建pod的过程：

1、客户端向apiserver发送创建创建pod的请求，然后apiserver将请求信息存入到ETCD中

2、存入完之后，ETCD会通过apiserver发送创建pod资源的事件

3、controller-manager通过List-watch机制监听apiserver发送出来的事件，并创建相关的pod资源。创建完成之后，通过apiserver将信息存入到ETCD中

4、ETCD存入更新信息之后，再次通过apiserver发送调度pod资源的事件到scheduler

5、scheduler通过List-watch机制监听到apiserver发出的调度事件，通过调度算法，将pod资源调度到合适的node节点上，调度完成后通过apiserver将调度信息更新到ETCD中

6、ETCD收到更新信息后，再次向apiserver发出的创建pod的事件

7、kubelet通过List-watch机制监听apiserver发出的创建pod的事件，然后根据事件信息，在相应的node节点完成pod的创建

二、scheduler调度的过程和策略：

1、简介

scheduler是K8S集群的调度器，把pod分配到集群的节点

调度规则：

公平，每个节点都能够分配资源
资源高效利用，集群中的资源可以被最大化使用
效率：调度的性能要好，能够尽快的完成大批量pod的调度工作
灵活：允许用户根据自己的需求，控制和改变调度的逻辑

scheduler：负责调度资源，把Pod调度到node节点上

有两种策略：预算策略、优选策略

scheduler是一个单独运行的程序，只要启动之后就会一直监听apiserver。获取报文中的字段：spec中的nodeName字段

创建pod时，为每个pod创建一个binding，表示该往哪个节点上部署

创建pod到节点时，有两个策略

先执行预算策略，在执行优先策略。这两步的操作都必须成功，否则立刻返回报错

部署的node必须满足这两个策略，少一个都不行

2、预算策略：predicate

自带一些算法，选择node节点，是scheduler自带的算法策略，不需要人工干预

podfitsresources：pod的适应策源，检查节点上剩余的资源是否满足pod请求的资源（主要是CPU和内存）
podfitshost：po适应主机，如果pod指定了node的name，检测主机名是否存在，如果存在要和pod指定的名称匹配，这才能调度过去
podselectormarches：pod选择器匹配，创建pod的时候，可以根据node'节点的标签来进行匹配。他查找指定的node节点上标签是否存在。存在的标签是否匹配
nodeskconflict：无磁盘冲突，确保已挂载的卷和pod卷不发生冲突。除非目录是只读

如果预算策略不满足，pod将始终处于pending状态，不断重试调度，直到节点满足条件为止

若三个node节点都满足——>优选策略

3、优先策略：

3.1、leastrequestedpriority：

最低请求优先级，通过算法计算节点上的CPU和内存使用率，确定节点的权重

使用率越低的节点，相应的权重就越高。调度时会更倾向于这些使用率低的节点。实现资源合理的利用

3.2、balanceresourceallocation：

平衡资源分配，算CPU和内存的使用率，给节点赋予权重。权重算的是CPU和内存使用率接近，权重越高。

和上面的最低请求优先级一起使用

举例：

node1 CPU和内存使用率：20 60

node2 CPU和内存使用率：50 50

node2的内存和CPU使用率接近，权重高，会被选择

3.3、imagelocalitypriority：

节点上是否已经有了要部署的镜像。镜像的总数成正比，满足的镜像数越多，权重越好

以上三个策略都是scheduler自带的算法，自动的

4、选择的过程：

先通过预算策略选择出可以部署的节点，在通过优选策略选择出最好的节点，以上都是自带的算法。K8S集群自己来选择

三、kubernetes对Pod的调度策略

在 Kubernetes 中，调度是指将 Pod 放置到合适的节点上，以便对应节点上的 Kubelet 能够运行这些 Pod。

1）定向调度：使用 nodeName 字段指定node节点名称；使用 nodeSelector 字段指定node节点的标签；

2）亲和性调度：使用节点/Pod 亲和性（NodeAffinity、PodAffinity、PodAntiAffinity）；

3）污点与容忍：使用节点设置污点，结合 Pod设置容忍。

4）全自动调度：运行在哪个节点上完全由Scheduler经过一系列的算法计算得出；

#补充，Pod和node的关系
Node 是 Kubernetes 集群中的工作节点
一个 Node 可以运行多个 Pod，而一个 Pod 只能运行在一个 Node 上
使用标签和选择器可以管理 Node 和 Pod 之间的关系，从而实现灵活的调度和管理。

四、定向调度

1、调度策略简介：

nodeName：指定节点名称，用于将Pod调度到指定的Node上，不经过调度器。

nodeSelector：在 Pod 定义文件的 spec 下的 nodeSelector 字段中设置一个标签选择器，在 Pod 调度的时候，只有具有这些标签的 Node 才会被考虑用来运行这个 Pod。

2、指定节点：

spec参数设置：

nodeName: node2

指定了节点，在参数中设置了nodeName，指定了节点的名称，会跳过scheduler的调度策略，这个规则是强制匹配

3、指定标签：

spec参数设置：

nodeSelector:

节点自定义标签：

kubectl label nodes master01 test1=a
kubectl label nodes node01 test2=b
kubectl label nodes node02 test3=c
kubectl get nodes --show-labels
#查看节点的标签

指定节点标签部署pod，是要经过scheduler的算法，如果节点不满足条件，pod会进入pending状态。直到节点满足条件为止

五、亲和性调度：

1、介绍：

两种亲和性：节点亲和性和pod亲和性

两种策略：软策略和硬策略

node节点的亲和性：

preferredDuringSchedulingIgnoredDuringExecution：软策略

选择node节点时，声明了我最好能部署在node01。如果是软策略，他会尽量满足这个条件，不一定会完全部署在node01节点上。

requiredDuringSchedulinglgnoredDuringExecution：硬策略

选择pod时，声明了部署在node1上。如果是硬策略，必须满足硬策略的条件，必须部署在node1上。强制性要求

pod的亲和性：

preferredDuringSchedulingIgnoredDuringExecution：软策略

要求调度器将pod调度到其他pod的亲和性匹配的节点上。可以是，也可以不是，尽量满足

requiredDuringSchedulingIgnoredDuringExecution：硬策略

要求调度器将pod调度到其他pod的亲和性匹配的节点上，强制性满足

2、键值的运算关系：

都是根据标签来选择node或者pod的亲和性

In（大写的i）：在，选择的标签值在node节点上存在
Notin：不在，选择label的值不在node节点上
Gt：大于，要大于选择的标签值，只能比较整数
Lt：小于，要小于选择的标签值，只能比较整数
Exists：存在，只是选择标签对象，不考虑值
DoesNotExist：不存在，选择不具有指定标签的对象。不考虑值

3、node亲和性实例

node亲和性的硬策略：

in策略：

apiVersion: apps/v1
kind: Deployment
metadata:
labels:
app: nginx
name: nginx
spec:
replicas: 3
selector:
matchLabels:
app: nginx
template:
metadata:
labels:
app: nginx
spec:
containers:
- image: nginx:1.22
name: nginx
affinity:
#选择亲和性部署方式
nodeAffinity:
#选择的是node节点的亲和性
requiredDuringSchedulingIgnoredDuringExecution:
nodeSelectorTerms:
#选择了亲和性的策略。nodeSelectorTerms你要选择哪个node作为硬策略。匹配的节点标签
- matchExpressions:
#定义了一个符合我要选择的node节点信息
- key: test3
operator: In
#指定键值对的算法
values:
- c

硬限制选择test3=c的节点

Notin：

notin，只要不在test3=c的节点，都能够部署

删除节点上的标签：

kubectl label nodes master01 test1-
kubectl label nodes node01 test2-
kubectl label nodes node02 test3-

更改标签名：

kubectl label nodes node02  memory=1000 --overwrite

Gt：

affinity:
nodeAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
nodeSelectorTerms:
- matchExpressions:
- key: memory
operator: Gt
values:
- "612"

大于612节点上部署

Exists：

affinity:
nodeAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
nodeSelectorTerms:
- matchExpressions:
- key: memory
operator: Exists
#指定键值对的算法为Exists或DoesNotExist，不能使用values字段

DoesNotExist：

affinity:
nodeAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
nodeSelectorTerms:
- matchExpressions:
- key: memory
operator: DoesNotExist

软策略：

affinity:
nodeAffinity:
preferredDuringSchedulingIgnoredDuringExecution:
- weight: 1
preference:
matchExpressions:
- key: memory
operator: In
values:
- "1000"
preferredDuringSchedulingIgnoredDuringExecution:
- weight: 10
preference:
matchExpressions:
- key: memory
operator: In
values:
- "500"

多个软策略看权重，权重高，执行指定的软策略

硬策略和软策略一起执行：

先满足硬策略，再考虑软策略。若硬策略无法满足，软策略一个都不会执行

面试题：

你在部署pod的时候选择什么样的策略：

根据node的亲和性：

性能不一致，尽量把pod往性能高的多部署，选择软策略

节点故障或者节点维护中，只能选择硬策略，把故障节点剔除

4、pod亲和性实例

4.1、pod的亲和性和反亲和性：

调度策略：	匹配标签	操作符	拓扑域	调度目标
node的亲和性	主机标签	In、NotIn、Exists、DoesNotExist、Gt、Lt	不支持	指定主机
pod的亲和性	pod的标签	In、NotIn、Exists、DoesNotExist	支持	pod和指定标签的pod部署在同一个拓扑域
pod的反亲和性	pod的标签	In、NotIn、Exists、DoesNotExist	支持	pod和指定标签的pod部署在不同一个拓扑域

4.2、拓扑域：

K8S集群节点当中的一个组织结构，可以根据节点的物理关系或者逻辑关系进行划分

可以用来标识节点之间的空间关系，网络关系，或者其他类型的关系

这里pod的亲和性的拓扑域是标签

4.3、pod的亲和性实例：

1、In

apiVersion: apps/v1

kind: Deployment

metadata:

labels:

app: nginx

name: nginx

spec:

replicas: 3

selector:

matchLabels:

app: nginx

template:

metadata:

labels:

app: nginx

spec:

containers:

- image: nginx:1.22

name: nginx

affinity:

podAffinity:

requiredDuringSchedulingIgnoredDuringExecution:

- labelSelector:

matchExpressions:

- key: app

operator: In

values:

- nginx

topologyKey: test1

#topologyKey指定拓扑域的关键字段，表示正在使用test1作为拓扑的关键字。test1一般是节点标签，表示希望吧pod调度到包含有app标签的pod，值为nginx1的在test1的拓扑域上的节点

2、Exists

满足test1节点，且满足pod标签等于app的

affinity:
podAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
- labelSelector:
matchExpressions:
- key: app
operator: Exists
topologyKey: test1

软策略：

表示尽量选择满足不存在app的pod标签的并且是满足test1的节点的

   affinity:

        podAffinity:

          preferredDuringSchedulingIgnoredDuringExecution:

          - weight: 1

            podAffinityTerm:

              labelSelector:

                matchExpressions:

                - key: app

                  operator: DoesNotExist

              topologyKey: test1

反亲和性：

表示反转，满足哪个就不去哪个

软策略反亲和性：

硬策略反亲和性：

注意点：

pod的亲和性策略，在配置时，必须要加上拓扑域的关键字topologykey，指向的是节点标签
pod亲和性的策略分为硬策略和软策略
pod亲和性的NotIn可以替代反亲和性
pod亲和性主要是为了把相关联的pod组件部署在同一节点上。lnmp

你在进行部署的时候，怎么考虑node节点：

软硬策略

污点和容忍

污点和容忍可以配合node的亲和性一块使用

污点：是node的调度机制，不是pod

被设为污点的节点，不会部署pod

污点和亲和性相反，亲和性是尽量选择和一定选择

污点的节点一定不被选择？

一、污点

1.查看主节点污点：kubectl describe nodes master

2.污点是什么：一旦节点上有污点的标签，那么调度器在部署pod的时候会避开这些有污点标签的节点。

3.污点的两种格式：

1》key:effect 键值：类型

kubectl taint node node1 test1:effect

2》key=value:effect 键值=值：类型

kubectl taint node node1 test1=1:effect

3.污点的类型：

1》NoSchedule：节点上一旦有这个污点，调度器不会把pod部署到该节点上。

2》PreferNoSchedule：尽量避免把pod部署到该节点。

3》NoExecute:调度器不仅不会把pod部署到该节点，而且会把该节点的pod驱逐到其它节点上。

4.删除污点：

三种污点类型

修改污点类型

二、容忍：k8s第二个机制

1.容忍：即使节点上有污点，调度依然可以把pod部署在有污点的节点上。

2.容忍的类型只有两个 operator: Equal(等于)和Exists（包含）

Equal类型

污点的容忍类型为驱逐NoExecute

tolerationseconds只能和Equal一起使用

Exists类型

只要是指定污点，不管节点key键值是啥都会部署

只要键值key存在，不考虑你是啥污点类型都会部署

三、cordon不可调度：直接标记节点为不可用节点

kubectl cordon node1

四、drain排水（谨慎使用）：标记节点为不可调度，而且会把节点上的pod驱逐到其它节点

--ignore：无视daemonsets的部署的pod

-data：如果被排水的节点上有本地的挂载点，会强制杀死

--force：不是控制器创建的pod会被强制释放

如何恢复

五、面试题

问：当排水和驱逐之后，怎么样能让pod重新回到节点？

回：污点类型放逐必须要取消

kubectl uncordon node1

重启 delete -f

六、关于主节点master一般情况下做为集群的调度器，尽量不部署pod，但是为了资源最大化，master也可以部署，前提是设置污点类型为preferNoschedule；如果集群规模很小，可以直接用来当节点部署。

七、数据卷volum

pod的生命周期是有限的，一旦重启或者崩溃数据就会丢失，为了保证数据的完整，我们要实现pod内的容器和节点进行挂载

1.数据卷类型:

emptyDir存储卷：容器和容器之间挂载；pod分配给节点之前，首先创建emotyDir卷，只要运行在节点，数据卷就会一直存在；这个数据卷不能和宿主机共享，pod内容器之间共享，一旦pod重启，enptyDir卷的数据也会一起删除。主要用于容器内部组件通信，不涉及敏感数据。

hostPath数据卷：每个pod和节点进行挂载，当pod部署到节点时，就会和节点的指定目录进行挂载；数据可以持久化；node节点数据格式化pod数据也就会消失。每个pod运行的数据不同，保留的数据要做分区，所以需要hostPath挂载。

Nfs共享存储卷：整个k8s集群里的pod相当于客户端，另外一台服务器提供Nfs共享；也就是所有pod共享一个挂载点，所有的数据也都在这一个挂载点。用于nginx服务或者pod的数据是一致的。

2.实验：

1》emptyDir：用{}代表

容器1的user/share和容器2 data/目录进行挂载，数据卷类型为emptyDir

进入pod其中一个容器内

2》hostPath数据卷实验

三台共同操作：以节点的数据为主

3》Nfs共享存储卷实验

K8s集群：

192.168.127.44 master1

192.168.127.55 node1

192.168.127.66 node2

192.168.127.36 集群外主机

首先四台主机做IP--主机名的映射

集群外主机创建目录 mkdir /opt/data1

在k8s主节点yaml文件内进行nfs挂载

于集群外主机创建的data1目录下创建文件并查看挂载结果

查看容器内挂载情况

Alone8046

关注

14
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
k8s调度、污点、容忍、不可调度、排水、数据卷挂载

nodeName：指定节点名称，用于将Pod调度到指定的Node上，不经过调度器。nodeSelector：在 Pod 定义文件的 spec 下的 nodeSelector 字段中设置一个标签选择器，在 Pod 调度的时候，只有具有这些标签的 Node 才会被考虑用来运行这个 Pod。spec参数设置：指定了节点，在参数中设置了nodeName，指定了节点的名称，会跳过scheduler的调度策略，这个规则是强制匹配spec参数设置：节点自定义标签：#查看节点的标签。
复制链接

扫一扫