云原生下监控体系建设

文章探讨了在公有云和Kubernetes环境下如何建立监控报警系统,强调了可靠性和简洁性,考虑资源性能、权限管理以及系统的可持续进化。提到了云平台监控与自建平台的选择,并讨论了监控维度,包括基础资源、Kubernetes、业务指标等。文章分为两个阶段,第一阶段侧重于规范梳理和基础建设,第二阶段关注报警模块统一和功能扩展。
摘要由CSDN通过智能技术生成

前言

随着公有云及Kubernetes的快速普及,监控在自动化运维体系中的作用也愈发重要,但在新的技术体系下面,该如何做好监控,除了技术选型层面的考量,更要结合自身业务形态、组织架构、技术环境、体量规模等因素,提炼出适合自己的监控体系。

关于监控报警平台建设的原则和需要考虑的点

  • 可靠、简洁

  • 资源和服务性能的影响

  • 权限管理

  • 可持续进化

注:关于可靠,包含采集的指标准确可靠,还有监控平台自身的可靠

平台建设选择

  • 云平台监控

  • 利用开源或自研

注:当前及未来很长时间将保持云平台和开源自建同时存在、互相补充,我们将考虑的是如何平衡二者的使用。

关于云平台监控和自建平台选择的原则和需要考虑的点

  • 非运维人员是否需要权限

  • 监控的延伸属性是否满足

监控维度

基础资源

  • Kubeneteus

  • 数据库

  • VPC

  • 负载均衡/网关

  • 域名等其他云资源

业务维度

  • HTTP状态/响应时间

  • 消息队列

  • 自定义指标

指标(SLI)

综合软件结构、业务特性、资源型号、行业经验等,选择不同监控维度的最需要的监控指标,去除重复指标,并建设一个监控指标库,持续维护管理。

报警阈值及等级

报警遵循的原则

  • 监控指标尽可能的精简、准确、稳定

  • 报警输出的判断依据是否需要人力介入的程度

报警等级

  • 重要

  • 紧急

第一阶段

第二阶段

重点事项

第一阶段

第一阶段的标签是打基础,主要任务是梳理规范,完善监控维度,建设一个覆盖面广、可持续进化的初步运维体系,重点工作是涉及底层的规范梳理、指标确认及阈值标定,初步形成可靠的监控报警体系。

  • 监控平台调研及建设

  • 指标(SLI)确定

  • 同步2进行线上服务规范梳理

  • 报警阈值及等级标定

第二阶段

第二阶段的标签是升级进化,在第一阶段完成的基础上,根据实际情况发展,逐步整理已有监控资源,孵化出统一的报警模块,并延伸出更多如大屏展示、报警订阅等功能及能力。

  • 统一报警的设计及建设

  • 逐步完善更多功能

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值