1.问题描述
1.1背景
客户集群节点重启之后,failure-domain.beta.kubernetes.io/zone 存在错误。
问题发生前提:
地域下存在多个可用区
地域注解:
"failure-domain.beta.kubernetes.io/zone"
"failure-domain.beta.kubernetes.io/zoneName"
"failure-domain.beta.kubernetes.io/region"
1.2例子
存在两个可用区,分别为yfm15和yfm14。zoneID分别为02/01。
1)三个master节点
位于yfm15,其地域标记正确。
2)worker1
位于yfm15,其地域标记正确。、
3)worker2
位于yfm14,其地域标记:zone错误,zoneName正确。
qcloud.conf:zone错误。
2.原因
2.1运行机制
存在两条路线,为节点打地域注解。
1.kubelet的initialNode()函数[每次CVM重启(kubelet重启)时,均会执行一次]
根据qcloud.conf的信息,为节点打上地域注解。(正确与否取决于qcoud.conf)
2.platform-controller[仅在集群创建阶段执行一次]
在针对machine的provider-EnsureCvmRunning中:
调用CVM接口获取地域信息,为节点打上地域注解"failure-domain.beta.kubernetes.io/zoneName"。(一定正确)
根据配置文件获取region信息,为节点打上地域注解"failure-domain.beta.kubernetes.io/region"。(一定正确)
在针对machine的provider-EnsureNecessaryLabel中:
根据节点"failure-domain.beta.kubernetes.io/zoneName"设置"failure-domain.beta.kubernetes.io/zone"。(一定正确)
根据配置文件获取region信息,为节点打上地域注解"failure-domain.beta.kubernetes.io/region"。(一定正确)
在针对cluster的provider-EnsureNecessaryLabel中:
调用CVM接口【根据master1】获取地域信息,为master节点打上地域注解。(一定正确)
2.2错误原因
cloud-gw下发节点的qcloud.conf数据至tke-upagent时,错误将每个节点的地域信息设置为master的地域信息。
-》
和master节点处于不同可用区的工作节点,其qcloud.conf的zone设置错误。
2.3为什么只有重启才会发生错误
存在两条路线,为节点打地域注解。
当未重启时:
第一条打了错误信息,第二条的正确信息将错误改正。
当重启时:
第一条会重新执行一次,导致信息错误。