分级告警策略,人性化系统监控?

本文探讨了告警策略在系统监控中的重要性,包括短信、邮件、钉钉等告警方式的成本和效率,并提出了模块告警收敛、接口告警收敛、告警频率收敛等策略,以减少资源浪费和用户压力。此外,还强调了不同时段的告警方式选择、逐层上报告警以及黑白跳动策略,以实现更人性化的监控平台。
摘要由CSDN通过智能技术生成

要介绍统一监控平台,得先从告警策略聊起,后续再聊不同维度监控的架构与实现细节。

 

一、啥是告警?

监控平台发现系统异常,向系统负责人发出文字(例如,邮件/短信),色彩(有些公司,编译不过,CI平台会亮红灯),声音(有些公司,有蜂鸣器嗡嗡响,研发压力大呀)等警示,就是告警。

 

绝大部分公司,主要是通过文字发出系统异常告警信息。

 

文字告警有哪些常见的方法?

以58到家为例,目前提供了四种文字告警的方式,其成本,到达率,实时性都不一样:

  • 短信:成本高,实时性好,到达率高

  • 邮件:成本低,实时性差,到达率高

  • 钉钉/微信:成本低,实时性中,到达率中

画外音:当然,得现有短信、邮件、钉钉、微信等消息网关的基础服务。

 

二、啥是告警策略?

绝大部分公司,可能都没有考虑系统监控告警策略,一旦发生异常,就发邮件/短信通知系统负责人,这样可能导致这样一些问题:

  • 同一个集群的不同实例出问题,可能会造成重复告警,浪费带宽资源,升高短信成本

  • 系统负责人短时间内手机被告警短信刷屏,导致产生麻木感

  • 系统负责人短时间内手机,邮箱,钉钉,微信同时对一个故障告警,导致产生巨大压力

  • 员工不重视告警,无法判断告警的优先级,leader又不知情,导致事故影响扩大

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值