先给结论: 这两个配置的锅(“不要看到kube-reserved就是保留资源的意思,这个配置是给kube 系统组件保留这么多资源,自己不能超过 别人也不能使用”)
--kube-reserved=cpu=200m,memory=1024Mi,ephemeral-storage=1Gi \
--kube-reserved-cgroup=/system.slice/kubelet.service \
调大这个配置只能短暂的恢复,如果久一点锅还会抛出来,下面是我的排查流程。
问题原因概述:
突然发现k8s重启风暴,多数pod 开始terminating ,然后看日志是计算节点10250连接拒绝如图:
进一步排查发现计算节点被kernel 杀死了, 如图:
通过上面2图的信息可以看出kubelet 由