网易数帆黄久远:大规模Kubernetes监控体系建设之路

网易数帆技术专家黄久远分享了大规模Kubernetes监控体系建设经验,包括系统性风险的产生、平台化思考、监控体系打造和精细化管理。通过Prometheus Operator、Cortex解决运维复杂性和资源成本问题,实现监控的标准化和自动化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

嘉宾 | 黄久远   整理 | 小雨青年

出品 | CSDN云原生

2022年5月31日,在CSDN云原生系列在线峰会第6期“K8s大规模应用和深度实践峰会”上,网易数帆技术专家黄久远从系统性风险的产生及监控体系的打造等方面,分享了大规模Kubernetes监控体系建设目标的实现。

系统性风险的产生

Kubernetes在网易的规模化落地大致经历了三个阶段:

  • 2018年,业务容器化的初期:集群数量在二十个左右,处于较低水平。应用和云原生技术的融合程度较低,定制化方案和咨询的需求较多。

  • 2020年,业务大规模容器化落地:集群数量较多,部分业务逐渐了解Kubernetes技术,通用需求开始涌现。

  • 2021年,内部大部分业务基本完成落地:集群数量超过 100 个,部分业务基于云原生技术打造业务平台,变更和发布常态化。

在Kubernetes引入的早期,网易使用Prometheus作为集群监控的解决方案。

下图为Prometheus官网提供的架构图,这从侧面表明了Prometheus本身运维的复杂性。例如,官方没有提供用于变更Target、Rule等常用配置的HTTP接口。

为了解决Prometheus运维复杂性的问题,网易引入了Prometheus Operator,用于管理集群中的Prometheus实例。它通过Kubernetes为Prometheus的运维管理提供接口,Target、Rule等配置的变更可以通过ServiceMonitor、PrometheusRul

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值