集群信息
- master节点:3台,slaver节点:9台
- etcd运行在三台master节点上
遇到的问题
- 在每天pod的启动时,发现pod从Pending --> CreateContainer --> Running所花费的时间很长,一般会用到6-10Min。
- 删除节点的时候也是需要花费3-5分钟才能完成一个pod的删除。
- 在master节点上面启动或者删除一个pod都会花费更长的时间。
排查
统计pod在节点的分配情况
我把
kubectl describe pod -n namespace | grep Node:
的输出重定向到一个文件里面,再对文件进行简单的k-v统计之后,发现所有节点的调度都集中在三个节点上[可能有master节点,可能都不是master节点]。
查看yaml文件
查看yaml文件之后,发现:
- 在containers里面,对于每一个container都没有声明资源相关的配置。
- 没有对于pod的亲和性设置。
解决问题
对于遇到的问题中的前两个,我感觉应该是pod集中分配到几个节点上面,造成那几个节点压力太大。一方面需要不能让pod分配到master节点上面,另一方面需要把pod均分到其他节点。
不让pod分配到master节点
这个可以在yaml文件里面设置node亲和性:
spec:
affinity:
nodeAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
nodeSelectorTerms:
- matchExpressions:
- key: kubernetes.io/hostname
operator: NotIn
values:
- master01
- master02
- master03
这个亲和性的设置,可以在官方文档上面看到详细的设置方法。这个亲和性可以避免pod分配到相关的节点上面。
均分pod到非master节点
这个需要设置一下资源的使用,让master节点自己去选取合适的节点放置pod:
containers:
- name: container_first_name
...
...
...
resources:
requests:
memory: xxx
cpu: xxx
limits:
memory: xxx
cpu: xxx
相关的文档在:官方文档
结果
添加这两个配置之后,发现现在的pod会均分到非master节点上面了,并且启动时间缩短到了1分钟之内,节省了很多的时间。