要介绍统一监控平台,得先从告警策略聊起,后续再聊不同维度监控的架构与实现细节。
一、啥是告警?
监控平台发现系统异常,向系统负责人发出文字(例如,邮件/短信),色彩(有些公司,编译不过,CI平台会亮红灯),声音(有些公司,有蜂鸣器嗡嗡响,研发压力大呀)等警示,就是告警。
绝大部分公司,主要是通过文字发出系统异常告警信息。
文字告警有哪些常见的方法?
以58到家为例,目前提供了四种文字告警的方式,其成本,到达率,实时性都不一样:
短信:成本高,实时性好,到达率高
邮件:成本低,实时性差,到达率高
钉钉/微信:成本低,实时性中,到达率中
画外音:当然,得现有短信、邮件、钉钉、微信等消息网关的基础服务。
二、啥是告警策略?
绝大部分公司,可能都没有考虑系统监控告警策略,一旦发生异常,就发邮件/短信通知系统负责人,这样可能导致这样一些问题:
同一个集群的不同实例出问题,可能会造成重复告警,浪费带宽资源,升高短信成本
系统负责人短时间内手机被告警短信刷屏,导致产生麻木感
系统负责人短时间内手机,邮箱,钉钉,微信同时对一个故障告警,导致产生巨大压力
员工不重视告警,无法判断告警的优先级,leader又不知情,导致事故影响扩大