Kubernetes
CSH056
这个作者很懒,什么都没留下…
展开
-
envoy日志格式说明
envoy日志格式参数说明原创 2023-03-06 22:41:15 · 607 阅读 · 0 评论 -
calico通过宿主机路由自动检测正确ip地址
calico原创 2023-01-30 16:14:02 · 359 阅读 · 0 评论 -
kubernetes中给pod加hosts解析
pod配置hostAliases原创 2022-12-02 22:09:04 · 2830 阅读 · 1 评论 -
calico vxlan interface down,导致 calico-node 无法添加路由
关于calico vxlan模式下,无法正常下发路由原创 2022-07-13 17:10:24 · 1141 阅读 · 0 评论 -
kubernetes中给服务部署探针
当我们把服务部署到kubernetes集群上,除了基本的监控告警来锁定服务异常,通过人为干预来检查和恢复外,其实kubernetes也提供了针对服务的存活检查,那就是探针。可以通过探针检查服务的存活状态,一旦服务不正常,超过自己设置的检查数,就会重新拉起服务,接下来我们可以配置一个服务做演示:一、首先创建一个服务kubectl create deploy test1 --image=nginx:latest二、进入test的deployment中添加对应的livenessProbe探针并做相关的服务原创 2021-12-15 14:47:02 · 1199 阅读 · 1 评论 -
cannot access upload: Transport endpoint is not connected
用户反馈集群中一个服务无法正常上传下载文件了,然后到管理节点查看对应的pod,然后进入pod容器中,到对应的文件上传下载路径,发现目录的所属主和文件权限都变的异常,如下:图中红色圈出来的就是文件上传下载的目录,试着给它权限和执行任何命令都报 cannot access upload: Transport endpoint is not connected。接下来就只能看下这个目录对应挂载盘是否有问题,发现读写是没有问题的,说明存储是ok的,接着看下共享存储的gfs是否正常,发现gfs状态都不正常了,如图原创 2021-09-10 13:22:50 · 1700 阅读 · 0 评论 -
网卡mtu值引起的服务访问异常处理过程
一、现象说明我们在k8s集群上部署服务,发现在72段主机上的服务访问是都没有问题的;但是在161段主机有的服务可以访问;有的访问没有返回值;其中在161段主机访问没有返回值的服务;到服务所在的主机是可以访问的。二、解决过程针对上述现象,我们确定了这两个段的ip是在一个vpc的,互相访问是没有问题的,不然也不可能存在有的访问有返回值,有的没有返回值,截图如下: 上图是我把grafana调到161段主机上curl就不正常了,重新把它调度到72段就能正常访问,后面我们部署了个nginx到161段发现也能正原创 2021-07-09 13:24:30 · 1178 阅读 · 0 评论 -
kubernetes中kube-controller-manager不断选举leader问题排查
一、某上云项目用网关来代理数据库的背景财务的服务在k8s集群外部,想连接数据库,就只能通过直连数据库的主机ip+prot的形式才能建立连接,但是却达不到高可用的目的,然后通过网关代理数据库的方式以达到高可用的目的。二、某上云项目网关代理数据库出现的问题财务的数据库改为网关代理的方式和外部服务建立连接以来,出现断断续续的服务连接中断,然后外部服务无法再次进行和网关的连接,只有重启外部服务,才能再次的建立连接的情况三、某上云项目网关代理数据库出现问题排查过程先是对数据库和网关的服务运行状态进行了查看,原创 2021-05-08 17:28:30 · 1870 阅读 · 0 评论 -
解决kubernetes集群中三台apiserver的endpoint轮询问题
某上云环境,在用prometheus采集kubernetes的apiserver的指标的时候,发现只能采集到一个apiserver的指标,经过排查发现kubernetes的apiserver的endpoint的地址一直在轮询改变,如图: 我们集群搭建的三节点的master高可用,按理说会显示kubernetes的endpoint的三个地址才对,但是只显示一个,而且是轮询这就奇怪了,查看kubernetes的管理节点日志都是没啥报错;后来查看apiserver的配置文件发现,三台apiserver的一个配置原创 2021-04-25 17:30:53 · 646 阅读 · 0 评论 -
一次calico问题排查
k8s集群出现一台主机calico重启,无法重新添加路由当时查看了下kubelet的日志,发现有报错证书无效,查看了集群内其它环境主机,路由都正常,按理说不应该是证书无效才对开始看下calico的日志,发现有报Liveness probe failed: calico/node is not ready: bird/confd is not live: exit status 1 /BIRD is not ready: Error querying BIRD: unable to connect to.原创 2021-04-22 16:46:29 · 2147 阅读 · 2 评论 -
解决metrics部署过程中出现的问题
解决metrics部署过程中出现的问题一、部署metrics过程中因忽视kubernetes管理节点没有部署kubelet和kube-proxy出现的报错1、当时在测试环境部署完metrics后,正常的kubectl top po 是能正常的查询到容器的cpu和内存使用率,然后拿着测试上的metrics镜像和yaml到生产环境部署就出现无法正常top po显示容器的资源使用率。在生产环境查看pod的容器状态,并查看日志如下:发现容器状态是没有问题的,日志显示的其中一个node节点的10250端口拒绝原创 2021-03-11 11:27:21 · 2484 阅读 · 0 评论 -
解决calico-vxlan模式下服务之间无法正常访问问题
目前在一套上云的环境中k8s用的是calico的vxlan模式,可 以支持跨vpc的访问,但是在部署服务过程中发现服务之间无法互相访问,无论是通过域名/svc ip还是pod ip,只有访问自身是没有问题的如下图:因为我们集群的kube-proxy用的是iptables模式,第一个想到的就是查看下iptables的防火墙规则,看看路由转发到对应访问的服务主机上没有,查看了下也有相对应的路由规则,检查主机防火墙也是关着的。接下来开始查看calico,记得当时部署的时候calico的ippool原创 2021-04-13 22:31:24 · 3822 阅读 · 4 评论 -
解决kubernetes集群中部署服务的pod ip显示docker ip 问题
项目场景:kubernetes集群中,其中一个node节点上部署的服务无法访问,经过查看,发现创建的服务显示的pod ip 是不对的,走的是docker ip,如下图:原因分析:发现其它节点部署服务都是正常的,走的都是calico的ip,只有这个节点走的是docker ip,本集群部署用的网络组件是calico,分析可能是kubelet的配置文件中可能没有添加cni这个参数导致,calico需要cni插件的支持,如果没有配置,可能会走默认的docker0网络解决方案:在kubelet的配置文件中原创 2021-03-26 13:22:21 · 989 阅读 · 0 评论 -
解决kubernetes集群中服务之间通过svc无法访问问题
解决kubernetes集群中服务之间通过svc无法访问问题项目场景:应用上云,服务都是通过kubernetes集群上进行发布,集群内的服务之间都是通过svc ip 进行连接问题描述:通过租户反应,他们部署到kubernetes集群上个别服务突然通过svc无法进行连接了原因分析:首先进入后台查看无法正常连接的服务是否正常,get po 看了下,发现无法访问的pod的状态也是没有问题的,get svc 也都是没问题的,检查了下pod的label也都是正常的,这个时候就只能看下endpoint了,正原创 2021-03-06 22:36:30 · 4945 阅读 · 0 评论 -
kubernetes的kubectl也可以使用tab的快捷方式
kubernetes的kubectl也可以使用tab的快捷方式 在linux的命令行中,我们经常敲些命令会使用到tab键,用来快速补齐命令,已达到快速节约时间,当我们在kubernetes集群中使用kubectl客户端工具进行增删改查的时候也是可以用tab键自动补全的。 当我们在kubernetes集群中,进行pod的查询操作时,发现tab是无法进行快捷操作的,如下:我们可以看到无法正常tab补齐,接下来我们做下设置,如下:然后在执行命令看看能否使用tab自动补全呢?如下:ok,可以看到能自原创 2021-02-27 18:02:30 · 806 阅读 · 1 评论