Kubernetes:3步排查K8S Deployment故障

目录

Kubernetes中部署一个应用程序

3步排查K8S Deployment故障

1、 故障排查Pod

常见的Pod错误

启动错误包括:

运行时错误包括:

ImagePullBackOff

CrashLoopBackOff

RunContainerError

Pod处于Pending状态

Pod不处于Ready状态

2、 排查Service故障

3、 排查Ingress故障

调试Ingress Nginx

总 结


Kubernetes中部署一个应用程序

Deployment故障排查思路

Deployment故障排查思路


1. pod是pending状态

  • cluster full ? 
  • ResourceQuota? 
  • PVC pending? 
  • pod 是否调度到Node?Scheduler? Kubelet?

2. pod不是running状态

  • kubectl logs 分析?还可以判断是否container quickly died?
  • ImagePullBackOff? - image name\tag\registry是否正确?
  • CrashLoopBackOff?-crashing app? Dockerfile-CMD?liveness prode?

3. pod不是ready状态

  • Readiness probe?

4. 不能访问app

  • 端口?
  • endpoints? 
  • Service targetPort 是否可以和 containerPort匹配?
  • Igress-serviceName和servicePort是否和Service匹配?

在Kubernetes中部署一个应用程序,你通常需要定义三个组件:

  • Deployment——这是创建名为Pods的应用程序副本的方法
  • Serivce——内部负载均衡器,将流量路由到Pods
  • Ingress——可以描述流量如何从集群外部流向Service

现在,我们来快速回顾一下什么端口和标签需要匹配:

  1. Service selector应该匹配Pod的标签
  2. ServicetargerPort应该匹配在Pod内容器的containerPort
  3. Service 端口可以是任意数字。多个Service可以使用同个端口,因为它们已经分配了不同的IP地址
  4. Ingress的servicePort应该匹配在Service中的port
  5. Service的名称应该匹配在Ingress中的serviceName的字段

了解如何构造YAML只是开始。那么,出了问题时会有什么表现?Pod可能无法启动,或者直接崩溃。

3步排查K8S Deployment故障

在我们深入研究有故障的deployment之前,必须有一个明确定义的模型,以了解Kubernetes的工作方式。

既然在每个deployment中都有那三个组件,你应该从底层开始按顺序调试它们。

  1. 你应该确保你的Pod正在运行
  2. 着重关注使Service将流量路由到Pod
  3. 检查Ingress是否正确配置
  • 你应该从底层开始排查Deployment故障。首先,检查Pod是否准备就绪并且正在运行
  • 如果Pod已经准备就绪,你需要检查Service是否可以将流量分配到Pod。
  • 最后你应该检查Service和Ingress之间的连接。

 

1、 故障排查Pod

在大多数情况下,问题出现在Pod本身。所以你应该确保Pod正在运行并准备就绪。应该如何检查呢?

kubectl get pods
NAME                    READY STATUS            RESTARTS  AGE
app1                    0/1   ImagePullBackOff  0         47h
app2                    0/1   Error             0         47h
app3-76f9fcd46b-xbv4k   1/1   Running           1         47h

以上部分,只有最后一个Pod是正在运行并且准备就绪的,而前两个Pod既没有Running也没有Ready。那么,你应该如何定位是什么出了问题呢?

这里有4个十分有用的命令可以帮助你排查Pod的故障:

  • kubectl logs <pod name>能够帮助检索Pod的容器日志
  • kubectl describe pod <pod name>能够有效地检索与Pod相关的事件列表
  • kubectl get pod <pod name>对于提取存储在Kubernetes中的Pod的YAML定义十分有用
  • kubectl exec -ti <pod name> bash可以用于在Pod其中一个容器中运行一个交互式命令

你应该使用哪一个呢?实际上,没有一种命令是万能的,你可以根据实际情况结合使用。

常见的Pod错误

Pod可能会出现启动和运行时的错误。

启动错误包括:

  • ImagePullBackoff
  • ImageInspectError
  • ErrImagePull
  • ErrImageNeverPull
  • RegistryUnavailable
  • InvalidImageName

运行时错误包括:

  • CrashLoopBackOff
  • RunContainerError--判断是否PVC问题?
  • KillContainerError
  • VerifyNonRootError
  • RunInitContainerError
  • CreatePodSandboxError
  • ConfigPodSandboxError
  • KillPodSandboxError
  • SetupNetworkError
  • TeardownNetworkError

这些错误中,有些比其他错误更为常见。以下是最常见的错误以及如何修复它们:

ImagePullBackOff

当Kubernetes无法检索Pod其中之一的容器镜像时,将出现此错误。

有三种常见原因:

  • 镜像名称无效——例如,你错误拼写名称或镜像不存在
  • 你给这一镜像指定了一个不存在的tag
  • 你所检索的镜像是私有仓库的,并且Kubernetes没有访问它的凭据

前两个原因可以通过更正镜像名称和tag解决。最后一个,你需要将凭据添加到“Secret”中的私有镜像仓库中,并在Pod中引用它。

官方文档可以让你更加清楚:

https://kubernetes.io/docs/tasks/configure-pod-container/pull-image-private-registry/

CrashLoopBackOff

如果容器无法启动,Kubernetes状态将显示CrashLoopBackOff消息。

通常情况下,容器在以下场景中无法启动:

你应该尝试并检索该容器的日志以确定出现故障的原因。

如果由于你的容器重启过快而无法查看日志,你可以使用以下命令:

kubectl logs <pod-name> --previous

它将从之前的容器中打印错误信息。

RunContainerError

容器不能启动时出现错误,甚至在容器内的应用程序启动之前就无法启动。

这个问题通常由于错误配置导致的,如:

  • 安装一个不存在的volume,如ConfigMap或Secret
  • 将只读volume安装为可读写

你应该使用kubectl describe pod <pod-name>来收集和分析错误。

Pod处于Pending状态

当你创建一个Pod时,Pod保持在Pending状态。这是为什么呢?假设你的调度组件运行了解,那么有以下几个原因:

  • 集群没有足够的资源来运行Pod,如CPU和内存
  • 当前命名空间有一个ResourceQuota对象并且所创建的Pod会使该命名空间超过资源额度
  • Pod与一个Pending状态的PersistentVolumeClaim绑定。

那么,最好的选择是使用命令kubectl describe检查事件:

kubectl describe pod <pod name>

对于由于ResourceQuotas造成的错误,可以使用以下方法检查集群的日志:

kubectl get events --sort-by=.metadata.creationTimestamp

Pod不处于Ready状态

如果Pod正在运行但是不Ready,这意味着Readiness探针出现故障。当Readiness探针出现故障时,Pod无法附加到Service上,并且流量无法转发到实例上。

Readiness探针故障是特定于应用程序的错误,因此使用kubectl describe来检查事件部分,以验证错误。

2、 排查Service故障

如果你的Pod正在运行并且准备就绪,但是你依旧无法接收来自应用程序的响应,你应该检查Service是否配置正确。

Service旨在根据pod的标签将流量路由到Pod。所以第一件事,你需要检查Service target多少个Pod。可以通过检查Service中的Endpoint来完成此步骤:

kubectl describe service <service-name> | grep Endpoints

一个endpoint是一对<ip address:port>`,并且当Service(至少)target一个pod时。至少有一对。

如果“Endpoint”部分是空的,那么有两种解释:

  1. 任何正在运行的Pod没有正确的label(提示:你需要检查以下你是否在正确的命名空间内)
  2. 在Service的selector标签中有错别字

如果你看到了endpoint列表,但依旧无法访问你的应用程序,那么你的Service中的targetPort可能是罪魁祸首

你应该怎么测试Service?无论Service类型是什么,都可以使用kubectl port-forward连接到它:

kubectl port-forward service/<service-name> 3000:80

其中:

  • <service-name>是Service的名称
  • 3000是你想要在电脑上打开的端口
  • 80是由Service暴露的端口

3、 排查Ingress故障

如果你走到了这个部分,这意味着:

  • Pod正在运行并且准备就绪
  • Service可以分发流量给Pod

但你依旧无法接收app的响应。那么这很有可能是Ingress配置出现错误

由于使用的Ingress controller是集群中的第三方组件,那么根据Ingress controller的类型会由不同的调试技术。但是在深入研究Ingress特定的工具之前,你可以使用一些简单的方法检查。

Ingress使用serviceNameservicePort连接Service。你应该检查那些是否正确配置。你可以使用以下命令检查Ingress是否正确配置:

kubectl describe ingress <ingress-name>

如果Backend列是空的,那么配置中肯定存在错误。

如果你能在Backend列中看到endpoint,但依旧无法访问应用程序,那么可能是以下问题:

  • 你将Ingress暴露于公网的方式
  • 你将集群暴露于公网的方式

你可以通过直接连接到Ingress Pod将基础设施问题与Ingress隔离开来。

首先,为你的Ingress Controller检索Pod(可能位于不同的命名空间中):

kubectl get pods --all-namespaces
NAMESPACE   NAME                              READY STATUS
kube-system coredns-5644d7b6d9-jn7cq          1/1   Running
kube-system etcd-minikube                     1/1   Running
kube-system kube-apiserver-minikube           1/1   Running
kube-system kube-controller-manager-minikube  1/1   Running
kube-system kube-proxy-zvf2h                  1/1   Running
kube-system kube-scheduler-minikube           1/1   Running
kube-system nginx-ingress-controller-6fc5bcc  1/1   Running

描述它以检索端口:

kubectl describe pod nginx-ingress-controller-6fc5bcc
 --namespace kube-system \
 | grep Ports

最后,连接到Pod:

kubectl port-forward nginx-ingress-controller-6fc5bcc 3000:80 --namespace kube-system

此时,每次你在电脑上访问端口3000,请求将会转发到Pod上的端口80。

那么,现在能够正常运行了吗?

如果正常工作,问题就出在基础设施。你应该检查流量如何路由到你的集群。

如果无法正常工作,问题就在Ingress controller。你应该调试Ingress。

如果仍然无法使Ingress controller正常工作,则应该开始对其进行调试。市场有许多不同版本的Ingress controller。比较流行的包括Nginx、HAProxy、Traefik等。

你应该查阅Ingress controller的文档以查找故障排查指南。

既然Ingress Nginx是最流行的Ingress controller,那么在下一个部分我们将介绍一些相关的技巧。

调试Ingress Nginx

Ingress-nginx有kubectl的官方插件,你可以访问以下网址查看:

https://kubernetes.github.io/ingress-nginx/kubectl-plugin/

你可以使用kubectl ingress-nginx来进行以下操作:

  • 检查日志、Backend、证书等
  • 连接到Ingress
  • 检查当前的配置

你还可以尝试以下三个命令:

  • kubectl ingress-nginx lint这是用来检查nginx.conf
  • kubectl ingress-nginx backend来检查Backend(与kubectl describe ingress <ingress-name>类似)
  • kubectl ingress-nginx logs来检查日志

请注意,你需要使用--namespace <name>来指定正确的命名空间。

总 结

如果你毫无头绪,那么在Kubernetes中进行故障排除可能是一项艰巨的任务。

你应该永远记住以从下至上的顺序解决问题:现检查Pod,然后向上移动堆栈至Service和Ingress。

而本文中的debug技术在其他地方也是通用的,例如:

  • 出现故障的Jobs和CronJobs
  • StatefulSets和DaemonSets

原文链接:https://learnk8s.io/troubleshooting-deployments

  • 15
    点赞
  • 59
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: k8sKubernetes)是一个开源的容器编排平台,用于自动化容器部署、扩展和管理。下面是一些与k8s相关的重要知识点运维笔记。 1. 容器化技术:k8s基于容器化技术,可以将应用程序及其依赖项封装到容器中,实现隔离和轻量级部署。熟悉Docker等容器化工具是使用k8s的先决条件。 2. 集群架构:k8s由Master和Worker节点组成,Master节点负责管理和控制集群,而Worker节点负责承载应用程序容器。了解集群架构和组件的功能是进行k8s运维的重要基础。 3. 资源管理:k8s通过PodDeployment、ReplicaSet等资源对象实现应用程序的管理。Pod是最小的可部署单元,可以包含一个或多个容器。Deployment用于定义和控制Pod的副本数和版本更新等。 4. 服务发现和负载均衡:k8s提供了Service对象用于服务发现和负载均衡。Service定义了一组Pod的访问入口,并通过ClusterIP、NodePort或LoadBalancer等方式实现内部和外部的访问。 5. 存储管理:k8s支持各种存储卷插件,包括本地存储、NFS、AWS EBS等。使用存储卷可以将应用程序中的数据持久化,并实现数据的共享和迁移。 6. 配置管理:k8s提供了ConfigMap和Secret等对象用于管理应用程序的配置和敏感信息。ConfigMap用于存储配置数据,而Secret用于存储敏感信息如密码和API密钥。 7. 监控和日志:k8s集成了多种监控和日志工具,如Prometheus、Grafana和EFK(Elasticsearch、Fluentd、Kibana)等。通过这些工具可以实时监控和分析应用程序的性能和日志信息。 8. 自动扩展:k8s可以根据应用程序的负载情况自动进行扩展。通过Horizontal Pod Autoscaler(HPA)等机制,可以根据CPU利用率或其他指标自动调整Pod的副本数。 9. 更新和回滚:k8s支持应用程序的版本更新和回滚。通过Deployment的滚动升级策略,可以实现应用程序的无缝更新,并在出现问题时快速回滚到之前的版本。 10. 故障排除和调试:k8s提供了一些工具和命令行工具,如kubectl、kubectl logs等,用于进行故障排查和调试。掌握这些工具的使用方法对于运维k8s集群是必要的。 以上是一些与k8s相关的重要知识点和运维笔记,对于熟练掌握k8s的运维人员来说,这些知识点是必备的。当然,k8s是一个非常广泛且庞大的平台,还有很多其他方面的知识和技能需要进一学习和掌握。 ### 回答2: Kubernetes(简称K8s)是一种用于自动化容器化应用程序部署、扩展和管理的开源容器编排工具。以下是关于Kubernetes相关重要知识点的运维笔记: 1. 集群架构:Kubernetes由Master和Node组成。Master负责集群管理,包括调度、监控、管理配置等,而Node是运行容器的主机。 2. PodPodKubernetes最小的可调度和管理的单元,它可以包含一个或多个容器。Pod共享网络和存储资源,可以通过共享文件和通信进行协作。 3. 命名空间(Namespace):命名空间用于将集群内的资源进行隔离,可以避免不同应用程序之间的冲突。 4. 控制器(Controller):控制器用于实现自动化操作和管理,如应用部署、副本数监控、故障恢复等。常见的控制器包括ReplicaSet、Deployment、StatefulSet等。 5. 服务(Service):Service是一种抽象,用于定义一组Pod的访问方式。它为一组Pod分配固定的虚拟IP,并提供负载均衡和服务发现功能。 6. 存储卷(Volume):存储卷用于持久化数据,确保数据在容器重启或迁移时不丢失。Kubernetes支持多种存储类型,如本地存储、网络存储、云存储等。 7. 扩展机制:Kubernetes提供了多种扩展机制,如水平Pod自动伸缩(HPA)、自定义资源定义(CRD)、自定义控制器等,可以根据需求灵活扩展和定制。 8. 监控和日志:Kubernetes提供了丰富的监控和日志功能,可以通过Prometheus、Elasticsearch等工具对集群中的资源和应用进行监视和记录。 9. 网络和服务发现:Kubernetes为容器提供了多种网络模型,并集成了服务发现机制。可以通过Ingress、LoadBalancer等方式将容器暴露到集群外部。 10. 安全和认证授权:Kubernetes提供了多种安全机制,如RBAC、TLS等,用于认证和授权用户的访问权限,确保集群的安全性。 这些是Kubernetes运维中的重要知识点,掌握了这些知识对于有效管理和运维Kubernetes集群至关重要。 ### 回答3: 1. k8s是一种开源的容器编排和管理平台,用于自动化应用程序的部署、扩展和管理。 2. k8s中的基本组件包括Master节点和Worker节点。Master节点负责管理整个集群的状态和配置信息,Worker节点负责运行容器。 3. k8s中的最小调度单位为Pod,一个Pod是一个或多个相关容器的组合,它们共享存储、网络和名称空间。 4. Replication Controller是k8s中用于复制和扩展Pod的机制,它可以确保指定数量的Pod在任何时间都运行在集群中。 5. Servicek8s中用于将Pod组织成服务的机制,提供一个稳定的IP地址和DNS名称,使得其他Pod或外部用户可以访问服务。 6. Volume是k8s中用于持久化数据的机制,允许容器访问与它们的生命周期无关的存储。 7. k8s支持多种网络插件,如Flannel、Calico和Weave等,用于在集群中实现容器之间的网络通信。 8. k8s可以通过Horizontal Pod Autoscaler实现根据负载自动进行Pod的扩缩容。它根据定义的指标监控集群的负载,并在负载过高或过低时自动调整Pod数量。 9. k8s支持滚动更新,可以在不中断服务的情况下逐更新应用程序的版本。 10. k8s提供了丰富的监控和日志收集机制,如Heapster和ELK Stack等,帮助用户监控和分析集群的状态和性能。 11. k8s还支持命名空间的概念,可以将集群划分为多个逻辑上独立的区域,以实现更好的资源隔离和管理。 12. k8s支持灵活的部署方式,可以在公有云、私有云或裸机上部署,同时支持自建集群和托管集群。 13. k8s有丰富的命令行工具和API,方便用户进行集群的管理和操作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值