记一次Kubernete集群崩毁恢复经历
事故说明:
k8s集群资源有限,在同一时刻内进行大量滚动升级。造成整个集群cpu,io,内存同一时刻飙到最高,导致集群里面4台机器死机,需要人手重启,重启后,对应的calico pod 出现 pullImageErr的状态。
处理步骤
1,尝试删除calico pod,没有任何帮助
2,登录calico pod ,用docker images没有发现calico镜像,利用docker pu...
原创
2019-12-06 16:50:28 ·
306 阅读 ·
0 评论