K8S常见故障及解决方法

问题1:K8S集群服务访问失败?

78341d32b0e812e8c0552bb8816fdf75.png

4366de2fe04d83104b72e259200aa25d.png

原因分析:证书不能被识别,其原因为:自定义证书,过期等。

解决方法:更新证书即可。

问题2:K8S集群服务访问失败?

curl: (7) Failed connect to 10.103.22.158:3000; Connection refused

原因分析:端口映射错误,服务正常工作,但不能提供服务。

解决方法:删除svc,重新映射端口即可。

kubectl delete svc nginx-deployment

问题3:K8S集群服务暴露失败?

Error from server (AlreadyExists): services "nginx-deployment" already exists

原因分析:该容器已暴露服务了。

解决方法:删除svc,重新映射端口即可。

问题4:外网无法访问K8S集群提供的服务?

5181c06b5f0a2e143d46ac1fe726818e.png

原因分析:K8S集群的type为ClusterIP,未将服务暴露至外网。

解决方法:修改K8S集群的type为NodePort即可,于是可通过所有K8S集群节点访问服务。

kubectl edit svc nginx-deployment

问题5:pod状态为ErrImagePull?

readiness-httpget-pod   0/1     ErrImagePull   0          10s


2c351a4faddddd157c1e7f14502c5a9d.png

原因分析:image无法拉取;

abd99b75b7f319b9e5921435198c4b79.png

1329b2f5383a42383e4888c934737664.png

解决方法:更换镜像即可。

问题6:创建init C容器后,其状态不正常?

NAME READY STATUS RESTARTS AGE
myapp-pod 0/1 Init:0/2 0 20s

原因分析:查看日志发现,pod一直出于初始化中;然后查看pod详细信息,定位pod创建失败的原因为:初始化容器未执行完毕。

Error from server (BadRequest): container "myapp-container" in pod "myapp-pod" is waiting to start: PodInitializing

89a09bfc744240e28668f735d922fb09.png

55091b62a3189cb7ada9b245e462c0f0.png

b8e5a30d7bc58b00bf3360996343e35a.png

waiting for myservice

Server: 10.96.0.10
Address: 10.96.0.10:53

** server can't find myservice.default.svc.cluster.local: NXDOMAIN

*** Can't find myservice.svc.cluster.local: No answer
*** Can't find myservice.cluster.local: No answer
*** Can't find myservice.default.svc.cluster.local: No answer
*** Can't find myservice.svc.cluster.local: No answer
*** Can't find myservice.cluster.local: No answer

解决方法:创建相关service,将SVC的name写入K8S集群的coreDNS服务器中,于是coreDNS就能对POD的initC容器执行过程中的域名解析了。

kubectl apply -f myservice.yaml

f922a3daaf4e4e421e4d664355465f4b.png

d88cf2c9fa3c0e2b3efe29de64e39d72.png

09d97799b1702823cb7db6963a88f55f.png

NAME READY STATUS RESTARTS AGE

myapp-pod 0/1 Init:1/2 0 27m
myapp-pod 0/1 PodInitializing 0 28m
myapp-pod 1/1 Running 0 28m

dd673268a31d5a95008793ae29d8c12d.png

问题7:探测存活pod状态为CrashLoopBackOff?

原因分析:镜像问题,导致容器重启失败。

解决方法:更换镜像即可。

7732f93b474434a08f4c01a419d16685.png

12cd1358390eda59b88ab94d7d3ce100.png

问题8:POD创建失败?

readiness-httpget-pod 0/1 Pending 0 0s
readiness-httpget-pod 0/1 Pending 0 0s
readiness-httpget-pod 0/1 ContainerCreating 0 0s
readiness-httpget-pod 0/1 Error 0 2s
readiness-httpget-pod 0/1 Error 1 3s
readiness-httpget-pod 0/1 CrashLoopBackOff 1 4s
readiness-httpget-pod 0/1 Error 2 15s
readiness-httpget-pod 0/1 CrashLoopBackOff 2 26s
readiness-httpget-pod 0/1 Error 3 37s
readiness-httpget-pod 0/1 CrashLoopBackOff 3 52s
readiness-httpget-pod 0/1 Error 4 82s

原因分析:镜像问题导致容器无法启动。

1fc3d0a96f096a6fdacf38ab51318454.png

解决方法:更换镜像。

41a67589bebf72ea1cdd9055b3cb0aa1.png

0e972ea8fe780e61f6adde8091c88647.png

问题9:POD的ready状态未进入?

readiness-httpget-pod   0/1     Running   0          116s

原因分析:POD的执行命令失败,无法获取资源。

9534697f607ba6bdd6c3e63cfd3d6b09.png

解决方法:进入容器内部,创建yaml定义的资源

a4e34f27b422b242b712d063763aa53f.png

fecdfa1e2a4be07dede4c21140f5fed3.png

问题10:pod创建失败?

337cdac1d349240f52905ac622e8b1b0.png

原因分析:yml文件内容出错—-使用中文字符;

解决方法:修改myregistrykey内容即可。

791463786be5ee344c34ddc741364568.png

11、kube-flannel-ds-amd64-ndsf7插件pod的status为Init:0/1?

d5d6dd81e046daa83d365c9c2e032960.png

排查思路:kubectl -n kube-system describe pod kube-flannel-ds-amd64-ndsf7 #查询pod描述信息;

0442500a2b17b6389d8dc412374489e9.png

原因分析:k8s-slave1节点拉取镜像失败。

解决方法:登录k8s-slave1,重启docker服务,手动拉取镜像。

a3fb9ba77450f9331ef0707a0f048558.png

k8s-master节点,重新安装插件即可。

kubectl create -f kube-flannel.yml;kubectl get nodes

eae328f80c8d32bfa7f76a20f0006ec1.png

12、K8S创建服务status为ErrImagePull?

58c674b69affb609daed98643524fe50.png

排查思路:

kubectl describe pod test-nginx

419d1c97c43cf5e34efda798dac8af2b.png

原因分析:拉取镜像名称问题。

解决方法:删除错误pod;重新拉取镜像;

kubectl delete pod test-nginx;kubectl run test-nginx --image=10.0.0.81:5000/nginx:alpine

13、不能进入指定容器内部?

2de922f46353b951040367dd58092e34.png

原因分析:yml文件comtainers字段重复,导致该pod没有该容器。

解决方法:去掉yml文件中多余的containers字段,重新生成pod。

ec5ee4612e30f60acc8bafa493976c96.png

d8ad1be7eb02b37a2e4e52e1f7966d7e.png

14、创建PV失败?

983d78fbb1446666fadd5eb2cc934bfc.png

原因分析:pv的name字段重复。

解决方法:修改pv的name字段即可。

13e1b8a1de4ff9fcec37cd129c6ce48c.png

15、pod无法挂载PVC?

cc184dbb156bfb1c97dfea68d6788d72.png

fd9a67cc368b2eca7ef4afe27f231491.png

原因分析:pod无法挂载PVC。

3d19973ad68c207b9dfdd44411a29426.png

df2989d4804403c3adb82f5ac586b0eb.png

accessModes与可使用的PV不一致,导致无法挂载PVC,由于只能挂载大于1G且accessModes为RWO的PV,故只能成功创建1个pod,第2个pod一致pending,按序创建时则第3个pod一直未被创建;

解决方法:修改yml文件中accessModes或PV的accessModes即可。

11d2fd98650a55cc79bb5b131349fd39.png

16、问题:pod使用PV后,无法访问其内容?

ac396d3cc4544ea76a5e7dc55f8c6744.png

原因分析:nfs卷中没有文件或权限不对。

69f0f4ca6167d0a8459f1fc769aa538d.png

5b975032829044a9c883f74b850e90ea.png

解决方法:在nfs卷中创建文件并授予权限。

a5ffa70a73a2db88743e57d989ff6f74.png

b71cc745c8b2e0c0ec41f5eac7d3be96.png

17、查看节点状态失败?

Error from server (NotFound): the server could not find the requested resource (get services http:heapster:)

原因分析:没有heapster服务。

解决方法:安装promethus监控组件即可。

c8abdd04beb918c581805ddfca9c9ea5.png

914f0528238eeb78aad84fa3d59be622.png

18、pod一直处于pending’状态?

0f63245f13c61156703c87795079c2ee.png

原因分析:由于已使用同样镜像发布了pod,导致无节点可调度。

adffafad5e889e3a4ef37f29aa2fbf75.png

解决方法:删除所有pod后部署pod即可。

bde529ee1ddee34cd3d0d9d35544d572.png

19、helm安装组件失败?

[root@k8s-master01 hello-world]# helm install

Error: This command needs 1 argument: chart nam

[root@k8s-master01 hello-world]# helm install ./
Error: no Chart.yaml exists in directory "/root/hello-world"

原因分析:文件名格式不对。

解决方法:mv chart.yaml Chart.yaml

71f9a2472cd13bc6559b1ee150ea6862.png

原文:https://www.cnblogs.com/chalon/p/14415252.htmla4c516cb6f60884c859af785545c62a3.png

推荐

A Big Picture of Kubernetes

Kubernetes入门培训(内含PPT)


随手关注或者”在看“,诚挚感谢!

Kubernetes (k8s)是一个用于容器编排和管理的开源平台,但在实际使用中可能会遇到一些常见的故障。以下是几个常见的k8s故障及其处理方法: 1. Pod无法启动或CrashLoopBackOff:这可能是由于应用程序错误、资源不足或配置问题引起的。您可以通过查看Pod的日志和事件来了解具体原因。修复方法可能包括修复应用程序错误、调整资源配额或修改配置文件。 2. 节点不可用:如果一个或多个节点无法正常工作,您可能会遇到服务中断的问题。您可以通过检查节点状态、重启节点或替换故障节点解决这个问题。另外,您可以使用副本控制器来确保Pod在其他可用节点上重新启动。 3. 网络问题:如果Pod无法相互通信或与外部服务通信,可能是由于网络配置错误、防火墙规则或网络故障引起的。您可以检查网络配置、检查防火墙规则并确保网络连接正常。 4. 存储问题:如果您使用了持久卷(Persistent Volume)并且无法访问存储,可能是由于存储配置错误、权限问题或存储故障引起的。您可以检查存储配置、修复权限问题或联系存储管理员来解决这个问题。 5. 资源耗尽:如果您的集群资源不足,可能会导致Pod无法启动或运行缓慢。您可以通过添加更多节点、调整资源配额或优化应用程序来解决这个问题。 这些只是一些常见的k8s故障和处理方法的示例。实际情况可能因您的环境和配置而异。在遇到故障时,建议您查看相关日志、事件和监控信息,以便更好地诊断和解决问题。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值