在工作中会有深度思考监控告警相关问题,我们都知道监控和告警的目的是要在事中及时发现问题并定位系统问题。我问过自己一个问题,为什么要加监控和告警?如果不加监控告警行不行?结论是:不行。
一、定义
首先来看一下为什么是监控告警。
监控:通过数据量化服务器的各种行为。
告警:当监控获取的数据发生异常并且达到告警阈值或者触发告警策略的时候,进行通知。
二、能不能不加监控依然让系统稳定地提供服务?
答案是可以,但是前提条件是:
2.1 对系统存在的风险有全面100%的认知;
2.2 在需求迭代系统不断复杂的过程中依然保持全面100%的认知;
2.3 在全面认识到系统复杂性以后,对于所有有风险的环节进行容错处理;
三、监控告警的必要性?
3.1 几乎不可能对系统存在的风险有100%的认知。因为生产系统是一个非常混沌的环境,磁盘占满,接口超时,机器宕机,中间件宕机等等,总会有你想想不到的问题出现。
3.2 即使你做到了全面100%的认知,那么也做不到在需求迭代中依然能保持100%的认知;
3.3 即使你前两个都做到了,也不可能对所有有风险的环节做容错;
打个比方,如果没有监控告警,就像是一只巨轮没有监控和方向,任何一点故障不及时发现和修复,都会让船只葬送大海。
四、怎么做?
方法很多,暂且不表。
Author:忆之独秀
Email:leaguenew@qq.com
转载注明出处:https://lavorange.blog.csdn.net/article/details/113754797