前言
随着公有云及Kubernetes的快速普及,监控在自动化运维体系中的作用也愈发重要,但在新的技术体系下面,该如何做好监控,除了技术选型层面的考量,更要结合自身业务形态、组织架构、技术环境、体量规模等因素,提炼出适合自己的监控体系。
关于监控报警平台建设的原则和需要考虑的点
可靠、简洁
资源和服务性能的影响
权限管理
可持续进化
注:关于可靠,包含采集的指标准确可靠,还有监控平台自身的可靠
平台建设选择
云平台监控
利用开源或自研
注:当前及未来很长时间将保持云平台和开源自建同时存在、互相补充,我们将考虑的是如何平衡二者的使用。
关于云平台监控和自建平台选择的原则和需要考虑的点
非运维人员是否需要权限
监控的延伸属性是否满足
监控维度
基础资源
Kubeneteus
数据库
VPC
负载均衡/网关
域名等其他云资源
业务维度
HTTP状态/响应时间
消息队列
自定义指标
指标(SLI)
综合软件结构、业务特性、资源型号、行业经验等,选择不同监控维度的最需要的监控指标,去除重复指标,并建设一个监控指标库,持续维护管理。
报警阈值及等级
报警遵循的原则
监控指标尽可能的精简、准确、稳定
报警输出的判断依据是否需要人力介入的程度
报警等级
重要
紧急
第一阶段
第二阶段
重点事项
第一阶段
第一阶段的标签是打基础,主要任务是梳理规范,完善监控维度,建设一个覆盖面广、可持续进化的初步运维体系,重点工作是涉及底层的规范梳理、指标确认及阈值标定,初步形成可靠的监控报警体系。
监控平台调研及建设
指标(SLI)确定
同步2进行线上服务规范梳理
报警阈值及等级标定
第二阶段
第二阶段的标签是升级进化,在第一阶段完成的基础上,根据实际情况发展,逐步整理已有监控资源,孵化出统一的报警模块,并延伸出更多如大屏展示、报警订阅等功能及能力。
统一报警的设计及建设
逐步完善更多功能