嘉宾 | 黄久远 整理 | 小雨青年
出品 | CSDN云原生
2022年5月31日,在CSDN云原生系列在线峰会第6期“K8s大规模应用和深度实践峰会”上,网易数帆技术专家黄久远从系统性风险的产生及监控体系的打造等方面,分享了大规模Kubernetes监控体系建设目标的实现。
系统性风险的产生
Kubernetes在网易的规模化落地大致经历了三个阶段:
-
2018年,业务容器化的初期:集群数量在二十个左右,处于较低水平。应用和云原生技术的融合程度较低,定制化方案和咨询的需求较多。
-
2020年,业务大规模容器化落地:集群数量较多,部分业务逐渐了解Kubernetes技术,通用需求开始涌现。
-
2021年,内部大部分业务基本完成落地:集群数量超过 100 个,部分业务基于云原生技术打造业务平台,变更和发布常态化。
在Kubernetes引入的早期,网易使用Prometheus作为集群监控的解决方案。
下图为Prometheus官网提供的架构图,这从侧面表明了Prometheus本身运维的复杂性。例如,官方没有提供用于变更Target、Rule等常用配置的HTTP接口。
为了解决Prometheus运维复杂性的问题,网易引入了Prometheus Operator,用于管理集群中的Prometheus实例。它通过Kubernetes为Prometheus的运维管理提供接口,Target、Rule等配置的变更可以通过ServiceMonitor、PrometheusRul