常用节点问题排查手段
很多时候需要登入到节点上面查看一些错误的细节,比如应用的问题,系统的问题,kubelet组件的问题。
ssh到内网节点
创建一个支持ssh的Pod 并通过负载均衡器转发ssh请求
查看日志
Node生命周期管理
规划好多集群了,只要在多地有不同的数据中心,然后每个数据中心有不同的kubernetes集群,并且我把应用部署在多个集群里面,可以将流量分摊,那么这样基本上就是一个多活的,高可用应用的拓扑就出来了。
主机管理
比如说你要cilium,它更多的是依赖于ebpf,ebpf对kernel的要求就很高,比如需要5.4以上的,那么这个时候你就可以规划内核版本,比如是使用自己熟悉的4.x版本。
版本选择centos还是unbunt,centos后面就没有免费版了,这个时候就需要做决策了。
操作系统里面安装哪些工具集呢?tcpdump这些工具安装不安装,有些常用的调试工具可以放在docker容器里面,在主机做调试的时候可以将容器拉下来,然后在容器里面去运行。
生产化集群管理
单个集群需要支撑多大的规模,这个包含业务的需求是多少,我要对我的业务规模去做一个预估。
在搭建kubernetes集群的时候,可以将不同地区的节点组成一个集群,然后在部署的时候通过反亲和让这个应用在多个地域去部署。
或者在不同的地方分别构建不同的集群,然后通过多集群的管理系统,将所有的集群管理起来,让集群联邦将应用分别下发到不同的地区,这样也是一种方式。
企业公共服务
控制平面的高可用
高可用集群