系统监控治理

一、监控定义

监控目的:

实时掌握,系统运行状态,健康,风险,紧急,故障,准确定位问题点

监控标准:

及时:故障处理问题流程要求 1 分钟响应,5分钟定位,10分钟解决

有效,有action, 有责任人,可跟进问题。

监控范围:

监控需要分层,及时发现问题根源

监控手段:

   业务通过日志埋点,数据对账,应用健康状态 基于 actuator 

二、系统监控常常面临的问题 

1、监控配置总量大,缺少分级,噪声多

2、监控不全面 ,存在漏报,不报的问题。很多报警无人跟进。

3、监控暴露的问题,持续未解决。需要推进机制。

三、改进措施

1、杀鸡用牛刀,从结构性彻底解决问题。 从战略上解决问题

2、系统服务能力定义与梳理:明确业务场景及规则列表,可描述,无潜规则

3、系统可观测(日志、追踪、度量)引用

日志:系统可监控性升级,日志规范性优化,结构化输出,可自释。

追踪:日志收集,统一输出

度量:通过聚合,多维度指标。(需要ETL 排查重试导致的误判)

4、监控分层

按照故障等级

按照业务链路监控

四、长期方案

系统监控环节,搭建可全链路监控系统,业务、运营、技术支持,研发 

五、以始为终

owner 意识,杜绝破窗效应,持续跟进监控,

记录新的报警进行跟进,统一排期解决

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值