k8s 实际环境中遇到的问题（一）

最新推荐文章于 2023-07-12 14:15:18 发布

被IT耽误的歌手

最新推荐文章于 2023-07-12 14:15:18 发布

阅读量6.2k

点赞数 7

分类专栏： kubernetes 文章标签： Notready Unkown

本文链接：https://blog.csdn.net/qq_35904833/article/details/79648241

版权

kubernetes 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

新线上稳定运行了113天的k8s集群，突然大部分pod状态为Unkown,此时一首“凉凉”正在耳边回荡。

于是在次界面开始展开了地毯式的排查，首先是使用describe 命令去看这些pod的运行情况（虽然已经知道是unkown状态，但通过这个命令可以看到一些详情）。未果，并没有得到我想要的为什么会unkown，但这些unkown的服务有一个共同特点都是运行在一台node上，于是通过get node发现果然这个节点状态为Notready.

所以在大量pod出现问题时，如果参数记得不是特别清楚的朋友，一定要养成习惯，多敲个get node 这类的常规命令，不会吃亏。当然如果我在一开始就加上了-o wide的话，可以清楚看到pod落在哪个节点上的话，第一时间应该就没清晰的定位到是节点出了问题。

那么节点为什么突然出问题了呢？（oh,更可怕的是这个节点正巧是kubenetes控制管理节点- -）。继续通过日志开始定位问题

发现并没有这个节点（172.16.4.65）状态的上报。紧接着查这台服务器上的k8s node相关服务。发现kubelet、kubeproxy等各类应用都处于运行状态。但在kubelet日志里看到“timeout”字眼，于是通过date查看服务器的运行时间较其他节点快了2个小时。so,最终根源找到了，也就是由于系统时间不同步造成的节点不正常。

改完系统时间后，迅速重启了kubelet、kubeproxy等相关服务。get node 看了看，很满意的点了点头（ready了），紧接着get pod 看了看服务

哟吼~服务也起来了，验证下服务就可以收工了；但乍一眼看去好像少了点什么。发现DNS服务没有起来，那好起呗

可最终给我的回显示“ErrImagePull”，老套路describe pod 。一眼就能看出来错误，提示镜像拉不下来。没道理啊，我的dns镜像是本地私有库的，怎么可能拉不下来。特意用docker images确认了下镜像的存在与否及yaml内image的定义。完全ok.但咋报这个不讲道理的错呢？只好登陆到harbor再去确认下，结果harbor有问题登不上去了，再一看果然服务有部分异常。

但为什么其他的pod都是正常running的呢，那是因为我这些yaml里唯独dns里没有设置镜像的拉取机制（本地没有时才拉），在不定义imagePullPolicy: IfNotPresent #或者使用Nevers 时，默认是每次都会拽一次私有库里的镜像。于是乎，增加参数后apply这些yaml文件，先恢复线上服务。

最后解决一下harbor私有库的问题。这块儿，根据个人理解应该就是在重启node相关服务时，导致原本harbor使用的资源释放引起的，重启即恢复。

所以整个过程其实挺吃鸡的，一个简单的时间不同步问题引发出这么多问题，是之前没有想到的，特此记录一下。

被IT耽误的歌手

关注

7
点赞
踩
36

收藏

觉得还不错? 一键收藏
0
评论
k8s 实际环境中遇到的问题（一）

新线上稳定运行了113天的k8s集群，突然大部分pod状态为Unkown,此时一首“凉凉”正在耳边回荡。于是在次界面开始展开了地毯式的排查，首先是使用describe 命令去看这些pod的运行情况（虽然已经知道是unkown状态，但通过这个命令可以看到一些详情）。未果，并没有得到我想要的为什么会unkown，但这些unkown的服务有一个共同特点都是运行在一台node上，于是通过get nod...
复制链接

扫一扫