pod进阶（资源管理和探针）

最新推荐文章于 2023-11-12 22:14:30 发布

YJ Thoreau

最新推荐文章于 2023-11-12 22:14:30 发布

阅读量425

点赞数

分类专栏： Docker技术集群与应用文章标签：运维

本文链接：https://blog.csdn.net/qq_44135433/article/details/121373070

版权

Docker技术集群与应用专栏收录该内容

29 篇文章 2 订阅

订阅专栏

一： Pod的资源限制

1.1 概念

1.1.1 什么是pod的计算资源显稚嫩

在配置Pod时，我们可以为其中的每个容器指定需要使用的计算资源（CPU和内存）。计算资源的配置项分为两种：Requests和Limits。

Requests表示容器希望被分配到的、可完全保证的资源量（资源请求量）；
Limits是容器最多能使用的资源量的上限（资源限制量）。
当为Pod中的容器指定了request资源时,调度器就使用该信息来决定将Pod调度到哪个节点上。当还为容器指定了limit资源时, kubelet就会确保运行的容器不会使用超出所设的limit资源量。kubelet还会为容器预留所设的request资源量, 供该容器使用。

如果Pod运行所在的节点具有足够的可用资源,容器可以使用超出所设置的request资源量。不过,容器不可以使用超出所设置的limit资源量

资源请求量能够保证Pod有足够的资源来运行，资源限制量则是防止某个Pod无限制地使用资源，导致其他Pod崩溃。

我们创建一个pod时，可以指定容器对CPU和内存的资源请求量及资源限制量，它们并不在pod里定义，而是针对每个容器单独指定。

pod对资源的请求量和限制量是它所包含的所有容器的请求量和限制量之和。

CPU和内存的Requests和Limits的特点

CPU和内存的Requests和Limits有如下特点:

Requests和Limits都是可选的。在Pod创建和更新时，如果未设置Requests和Limits，则使用系统提供的默认值，该默认值取决于集群配置。
如果Requests没有配置，默认被设置等于Limits。
requests 是创建容器时需要预留的资源量。如果无法满足，则pod 无法调度。但是，这不是容器运行实际使用的资源，容器实际运行使用的资源可能比这个大，也可能比这个小。
Limit 是限制pod容器可以使用资源的上限。容器使用的资源无法高于这个限制任何情况下Limits都应该设置为大于或等于Requests。

1.2 pod 之间，和容器之间的通信

同一个pod 里的容器之间通信使用IPC进行通信(进程间通信)，通过localhost找到彼此
同一个node节点上的pod的通信使用虚拟网桥docker0进行通信
不同node节点上的pod 通信可以借助CNI（Container Network Interface）插件进行通信。如Flannel，calico等

1.3 官网中的示例

官网示例：https://kubernetes.io/zh/docs/concepts/configuration/manage-resources-containers/
Pod和容器的资源请求和限制：

spec.containers[].resources.limits.cpu      #定义cpu的资源上限
spec.containers[].resources.limits.memory   #定义内存的资源上限
spec.containers[].resources.limits.hugepages-<size>   #定义hugepages的资源上限
spec.containers[].resources.requests.cpu     #定义创建容器时预分配的CPU资源
spec.containers[].resources.requests.memory   #定义创建容器时预分配的内存资源
spec.containers[].resources.requests.hugepages-<size> #定义创建容器时预分配的巨页

1.4 CPU 资源单位

CPU资源的request和limit以cpu为单位。Kubernetes中的一个cpu相当于1个VCPU (1个超线程)

Kubernetes也支持带小数CPU的请求。spec.containers [].resources.requests.cpu为0.5的容器能够获得一个cpu的一半CPU资源(类似于cgroup对CPU资源的时间分片)。表达式0.1等价于表达式100m (毫核) ,表示每1000毫秒内容器可以使用的CPU时间总量为0.1*1000毫秒。

1.5 内存资源单位

内存的request和limit以字节为单位。可以以整数表示,或者以10为底数的指数的单位(E、P,T,G,M,K)来表示,或者以2为底数的指数的单位(Ei, Pi,Ti,Gi、Mi, Ki)来表示。

如: 1KB-10^3-1000, 1MB-10^6-1000000-1000KB, 1GB=10^9-1000000000-1000MB

1KiB-2^10-1024, 1MiB-2 20-1048576-1024KiB

PS:在买硬盘的时候,操作系统报的数量要比产品标出或商家号称的小一些,主要原因是标出的是以MB, GB为单位的, 1GB

就是1,000,000, 000Bte ,而操作系统是以2进制为处理单位的,因此检查硬盘容量时是以MiB, GiB为单位, 1GB-2^30-1,073, 741, 824,相比较而言,1GiB要比1GB多出1,073, 741, 824-1, 000, 000, 000-73, 741, 824Byte,所以检测实际结果要比标出的少一些。

1.6 示例

#先在每个节点上清空内存
echo 1 > /proc/sys/vm/drop_caches 
 echo 2 > /proc/sys/vm/drop_caches 
 echo 3 > /proc/sys/vm/drop_caches 
 free -m

[root@master ~]# vim demo1.yaml
apiVersion: v1
kind: Pod
metadata:
  name: frontend
spec:
  containers:
  - name: web
    image: nginx
    env:
    - name: WEB_ROOT_PASSWORD
      value: "password"
    resources:
      #此容器预分配资源：内存为 64Mi ; 每个cpu 分配250m
      requests:
        memory: "64Mi"
        cpu: "250m"
      #此容器限制使用资源（最大）： 内存最大使用128Mi，每个cpu最大分配500m
      limits:
        memory: "128Mi"
        cpu: "500m"
  - name: db
    image: mysql
    env:
    - name: MYSQL_ROOT_PASSWORD
      value: "abc123"
    resources:
     #此容器的预分配资源:内存预分配为512Mi;cpu预分配为每个cpu的50%，即1000*50%=500m
      requests:
        memory: "512Mi"
        cpu: "0.5"
     #此容器的限制使用资源配额为：内存最大使用1Gi;cpu最大使用1000m   
      limits:
        memory: "1Gi"
        cpu: "1"

#pod有两个容器，web 和db。所以，总的请求资源和限制资源为 web 和db 请求，限制资源总和。
#其中，cpu 的资源请求和限制，是以单个cpu 资源进行计算的。如果有多个cpu，则最终的结果是数值*N

[root@master ~]# kubectl get pod
[root@master ~]# kubectl describe pod frontend

# 查看pod的详细信息，查看pod被调度到了哪个node节点
[root@master ~]# kubectl  get pod -o wide
#查看node01 节点的信息
[root@master ~]# kubectl  describe nodes node01

二：健康检查（探针Probe)

2.1 探针的三种规则

健康检查，又名探针（Probe）：探针是由kubelet对容器执行定期诊断。

探针有三种规则：

livenessProbe: 判断容器是否正在运行。如果探测失败，则kubelet会杀死容器，并且容器将根据 restartPolicy 来设置Pod状态。如果容器不提供存活探针，则默认状态为Success
readinessProbe: 判断容器是否准备好接受请求。如果探测失败，端点控制器将从Pod匹配的所有service endpoints中剔除该Pod的IP地址。初始延迟之前的就绪状态默认我为Failure.如果容器不提供就绪探针，则默认状态为success。
startupProbe（1.17版本新增）：判断容器内的应用程序是否已经启动，主要针对于不能确定具体启动时间应用。如果配置了startupProbe探测，则在startuProbe状态为success 之前，其他所有探针都处于无效状态，知道它成功后其他探针才起作用。如果startupProbe失败，kubelet将杀死容器你，容器将根据restartPolicy来重启。如果容器没有配置startupProbe，则默认状态为Success。、

注：以上规则可以同时定义。在readinessProbe检测成功之前，Pod的running状态是不会变成ready状态。

2.2 Probe支持的三种检查方法

exec: 在容器内执行命令。如果命令退出时返回码为0 ，则认为诊断成功
tcpSocket: 对指定端口上的容器IP 地址进行TCP 检查（三次握手）。如果端口打开，则诊断被认为是成功的
httpGet：对指定端口和路径上的容器的IP地址执行HTTPGET请求。如果响应的状态码大于等于200，且小于400，则诊断被认为是成功的。

2.3 探测获得的三种结果

每次探测，都将会获得以下三种结果之一:

成功：容器通过了诊断
失败：容器未通过诊断
未知：诊断失败，因此不会采取任何行动

三：示例

3.1 示例1 exec方式

3.1.1 exec 官网示例

https://kubernetes.io/zh/docs/tasks/configure-pod-container/configure-liveness-readiness-startup-probes/

apiVersion: v1
kind: Pod
metadata:
  labels:
    test: liveness
  name: liveness-exec
spec:
  containers:
  - name: liveness
    image: k8s.gcr.io/busybox
    args:
    - /bin/sh
    - -c
    - touch /tmp/healthy; sleep 30; rm -rf /tmp/healthy; sleep 600
    livenessProbe:
      exec:
        command:
        - cat
        - /tmp/healthy
      initialDelaySeconds: 5
      periodSeconds: 5

探针可选的参数:

initialDelayseconds:容器启动多少秒后开始执行探测。最小值为0
periodSeconds:探测的周期频率，每多少秒执行一次探测默认是10秒，最小值为1
failureThreshold:探测失败后，允许再试几次。
timeoutSeconds :探测等待超时的时间。默认为1 秒，最小值为1 秒

在这个配置文件中，可以看到 Pod 中只有一个容器。

periodSeconds 字段指定了 kubelet 应该每 5 秒执行一次存活探测。

initialDelaySeconds 字段告诉 kubelet 在执行第一次探测前应该等待 5 秒。

kubelet 在容器内执行命令 cat /tmp/healthy 来进行探测。如果命令执行成功并且返回值为 0，kubelet 就会认为这个容器是健康存活的。如果这个命令返回非 0 值，kubelet 会杀死这个容器并重新启动它。

3.1.2 编写示例，查看

[root@master ~]#vim exec.yaml 
apiVersion: v1
kind: Pod
metadata:
  name: liveness-exec
  namespace: default
spec:
  containers:
  - name: liveness-exec-container
    image: busybox
    imagePullPolicy: IfNotPresent
    command: ["/bin/sh","-c","touch /tmp/live ; sleep 30; rm -rf /tmp/live; sleep 3600"]
    #存活检查探针，使用exec的方式，进入容器内部，检测是否有文件或目录/tmp/live
    livenessProbe:
      exec:
        command: ["test","-e","/tmp/live"]
      initialDelaySeconds: 1
      periodSeconds: 3

#创建pod
[root@master ~]# kubectl create  -f exec.yaml 

#跟踪查看pod 信息
[root@master ~]# kubectl get pod  -o wide -w

#新开一个终端，查看pod 的消息信息
[root@master ~]# kubectl describe pod liveness-exec

3.2 示例2 httpGet方式

3.2.1 官方示例

apiVersion: v1
kind: Pod
metadata:
  labels:
    test: liveness
  name: liveness-http
spec:
  containers:
  - name: liveness
    image: k8s.gcr.io/liveness
    args:
    - /server
    livenessProbe:
      httpGet:
        path: /healthz
        port: 8080
        httpHeaders:
        - name: Custom-Header
          value: Awesome
      initialDelaySeconds: 3
      periodSeconds: 3

在这个配置文件中，可以看到 Pod 也只有一个容器。 periodSeconds 字段指定了 kubelet 每隔 3 秒执行一次存活探测。 initialDelaySeconds 字段告诉 kubelet 在执行第一次探测前应该等待 3 秒。 kubelet 会向容器内运行的服务（服务会监听 8080 端口）发送一个 HTTP GET 请求来执行探测。如果服务器上 /healthz 路径下的处理程序返回成功代码，则 kubelet 认为容器是健康存活的。如果处理程序返回失败代码，则 kubelet 会杀死这个容器并且重新启动它。

任何大于或等于 200 并且小于 400 的返回代码标示成功，其它返回代码都标示失败。

3.2.2 编写httpGet 示例

[root@master ~]# vim httpget.yaml
apiVersion: v1
kind: Pod
metadata:
  name: liveness-httpget
  namespace: default
spec:
  containers:
  - name: liveness-httpget-container
    image: soscscs/myapp:v1
    imagePullPolicy: IfNotPresent
    ports:
    - name: http
      containerPort: 80
    livenessProbe:
      httpGet:
        port: http
        path: /index.html
      initialDelaySeconds: 1
      periodSeconds: 3
      timeoutSeconds: 10

#创建pod
[root@master ~]# kubectl create -f httpget.yaml

#删除pod里容器的文件
[root@master ~]# kubectl  exec -it liveness-httpget  -- rm -rf /usr/share/nginx/html/index.html

#查看pod 状态和 详细信息
[root@master ~]# kubectl get pods
[root@master ~]# kubectl describe pod liveness-httpge

3.3 示例3 ，tcpSocket 方式

3.3.1 官方示例

apiVersion: v1
kind: Pod
metadata:
  name: goproxy
  labels:
    app: goproxy
spec:
  containers:
  - name: goproxy
    image: k8s.gcr.io/goproxy:0.1
    ports:
    - containerPort: 8080
    readinessProbe:
      tcpSocket:
        port: 8080
      initialDelaySeconds: 5
      periodSeconds: 10
    livenessProbe:
      tcpSocket:
        port: 8080
      initialDelaySeconds: 15
      periodSeconds: 20

如你所见，TCP 检测的配置和 HTTP 检测非常相似。下面这个例子同时使用就绪(readinessProbe)和存活(livenessProbe)探测器。

kubelet 会在容器启动 5 秒后发送第一个就绪探测。这会尝试连接 goproxy 容器的 8080 端口。如果探测成功，这个 Pod 会被标记为就绪状态，kubelet 将继续每隔 10 秒运行一次检测。

除了就绪探测，这个配置包括了一个存活探测。 kubelet 会在容器启动 15 秒后进行第一次存活探测。与就绪探测类似，会尝试连接 goproxy 容器的 8080 端口。如果存活探测失败，这个容器会被重新启动

3.3.2 编写tcpSocket 方式示例

[root@master ~]# tcpsocket.yaml
apiVersion: v1
kind: Pod
metadata:
  name: probe-tcp
spec:
  containers:
  - name: nginx
    image: soscscs/myapp:v1
    livenessProbe:
      initialDelaySeconds: 5
      timeoutSeconds: 1
      tcpSocket:
        port: 8080
      periodSeconds: 3

[root@master ~]# kubectl  create  -f tcpsocket.yaml

#查看容器里的端口（查看有无8080端口)
[root@master ~]# kubectl  exec -it probe-tcp  -- netstat -natp

#查看pod的状态和详细信息
[root@master ~]# kubectl  get pods
[root@master ~]# kubectl  describe pod probe-tcp

3.4 示例4 配置就绪探测 httpGet的方式

[root@master ~]# vim readiness-httpget.yaml
apiVersion: v1
kind: Pod
metadata:
  name: readiness-httpget
  namespace: default
spec:
  containers:
  - name: readiness-httpget-container
    image: soscscs/myapp:v1
    imagePullPolicy: IfNotPresent
    ports:
    - name: http
      containerPort: 80
    readinessProbe:
      httpGet:
        port: 80
        path: /index1.html
      initialDelaySeconds: 1
      periodSeconds: 3
    livenessProbe:
      httpGet:
        port: http
        path: /index.html
      initialDelaySeconds: 1
      periodSeconds: 3
      timeoutSeconds: 10

# 创建pod
[root@master ~]# kubectl create -f readiness-httpget.yaml 
#查看pod的详细信息
[root@master ~]# kubectl  get pod -w
[root@master ~]# kubectl describe pod readiness-httpget

#此时，因为容器里没有 index1.html文件，所以，httpGet的就绪探测失败
[root@master ~]# kubectl exec  -it readiness-httpget  --  ls /usr/share/nginx/html

#进入容器，创建index1.html,让就绪探测成功
[root@master ~]# kubectl exec  -it readiness-httpget sh  
/ # cd /usr/share/nginx/html/
/usr/share/nginx/html # ls
50x.html    index.html
/usr/share/nginx/html # echo abc > index1.html
/usr/share/nginx/html # exit

[root@master ~]# kubectl  get pods

3.5 就绪探测示例2

[root@master ~]# vim  readiness-myapp.yaml
apiVersion: v1
kind: Pod
metadata:
  name: myapp1
  labels:
    app: myapp
spec:
  containers:
  - name: myapp
    image: soscscs/myapp:v1
    ports:
    - name: http
      containerPort: 80
    readinessProbe:
      httpGet:
        port: 80
        path: /index.html
      initialDelaySeconds: 5
      periodSeconds: 5
      timeoutSeconds: 10
---
apiVersion: v1
kind: Pod
metadata:
  name: myapp2
  labels:
    app: myapp
spec:
  containers:
  - name: myapp
    image: soscscs/myapp:v1
    ports:
    - name: http
      containerPort: 80
    readinessProbe:
      httpGet:
        port: 80
        path: /index.html
      initialDelaySeconds: 5
      periodSeconds: 5
      timeoutSeconds: 10
---
apiVersion: v1
kind: Pod
metadata:
  name: myapp3
  labels:
    app: myapp
spec:
  containers:
  - name: myapp
    image: soscscs/myapp:v1
    ports:
    - name: http
      containerPort: 80
    readinessProbe:
      httpGet:
        port: 80
        path: /index.html
      initialDelaySeconds: 5
      periodSeconds: 5
      timeoutSeconds: 10
---
apiVersion: v1
kind: Service
metadata:
  name: myapp
spec:
  selector:
    app: myapp
  type: ClusterIP
  ports:
  - name: http
    port: 80
    targetPort: 80

所有的自主式Pod，name不可以相同。但是使用同一个标签myapp。 service通过标签选择器和对应标签的pod关联

[root@master ~]# kubectl  create -f readiness-myapp.yaml 

#查看这些资源的详细信息。
[root@master ~]# kubectl get pods,svc,endpoints -o wide
#删除myapp1的 index.html文件，让就绪探测 失败
[root@master ~]# kubectl exec -it myapp1 -- rm -rf /usr/share/nginx/html/index.html

# 查看发现，就绪探测失败的pod被从关联的service中移除ip
[root@master ~]# kubectl get pods,svc,endpoints -o wide