前提
之前部署的k8s环境已转为生产环境跑了2个月,prometheus 只监控了业务和基础服务器的namespace。最近发现cattle-system空间下的cattle-node-agent 15台不正常,看pod日志查到是证书效验失败.
agent 拿的99开头的和集群7f开头的证书做校验失败,肯定有一个证书是不对的。
一. 检查集群现在使用的证书
集群中有4个位置要检查.
1.k8s的证书目录 k8s的证书都在这个目录下/etc/kubernetes/ssl/
通过命令查到集群中正确的证书校验值是7f3开头的
2.在rancher中检查cattle-cluster-agent和cattle-node-agent deployment证书的取值。
cluster agent

node agent 
可以看到deployment下clutser和node取值都是正确,但是pod里面的那个99开头的校验值那来的,好疑惑。
重新删除pod,新拉起来的pod还是取99那个证书…
3.继续检查集群信

本文档描述了在k8s环境中遇到cattle-node-agent证书校验失败的问题,通过检查集群证书、Rancher配置以及clusterregistrationtokens信息,发现了99开头的错误证书。尝试更新YML文件并重启pod无效,推测问题可能与新增节点的加入时间有关,后续将进行深入调查。
最低0.47元/天 解锁文章
927

被折叠的 条评论
为什么被折叠?



