容器平台自愈简介
公有云现状
摘自:https://mp.weixin.qq.com/s/CLoALO6r9bb3cE7CLTvZUQ
各类硬件和软件故障已成为常态,直接导致 Kubernetes 集群工作节点时常处于一种不稳定的状态,人肉运维不仅效率低下,误操作及 24 小时 OnCall 也是巨大的挑战,因此容器服务通过托管节点池为用户提供了一个自愈的免运维的云上 Kubernetes 集群服务。本文将重点介绍如何通过托管节点池实现 Kubernetes 节点自愈能力。
阿里云公有云提供了托管节点池来帮助私有Kubernetes集群进行节点自愈。Kubernetes的硬件和软件出现故障已经成为常态。此时K8S集群中对应的节点会处于不稳性的状态。人肉运维效率低下,且容易造成误操作引发更大的风险。
自愈的重点在两方面,问题的检测和故障修复。
在K8S集群中的问题主要包括硬件和软件。
硬件包括:内存板卡损坏、磁盘坏道、网卡控制器故障,机房断电跳闸、光缆故障。
软件包括:软件 OOM、进程句柄泄露、IO hang、磁盘满、网络断链,系统负载过高,docker,kubelet故障,运行环境等。
(此处阿里分为了三类:硬件故障(内存板卡损坏、磁盘坏道、网卡控制器故障)、软件故障(软件 OOM、进程句柄泄露、IO hang、磁盘满、网络断链)、机房断电跳闸、光缆故障、系统负载过高等。)
将故障进行抽象分类分层: