《预警报警规则编写原则》
2020-11-12
- 序言
-
在对一个复杂系统设计时,对系统的工作状态进行监视,并且对未来可能发生的故障进行预测,是运维模块的必不可少的功能。尤其是,挑选预警对象与编写预警规则,对系统/运维工程师分析和设计的功力提出了很高的要求。
-
假如此部分工作没有做好,系统上线后,会使运维工作出现一些不尽如人意的情况:如虚假报警过多,导致真正的故障报警被运维人员忽视;或是报警或预警模块对重要故障不能及时或提前告知,运维人员不及时处理;或是大量/海量的报警消息出现,导致真正重要的信息被淹没在报警消息的噪声中。
-
因此,了解清楚报警规则的设计原则和常见的规范是极其重要的。
- 报警规则的监测对象
- 系统中的功能:指业务系统完成的业务需求。
- 系统的响应速度:其实就一句话,天下武功唯快不破。
- 系统中的数据:指各类业务数据的完整性,持久性,以及新鲜度。
- 报警规则的设计原则
- 报警消息接收的对象是运维管理员,是人(Human/Person),而不是一个自动化处理的程序(Program)或是脚本(Scripts)。
- 报警规则的设计应是基于故障表现出来的症状(Symptom),而不是基于故障可能产生的原因(Cause)。这就好象医院的医生首先要对病人做各种检查,得到身体的各项生化指标或影像等客观参数,然后再去探究原因;而不是一上来先判断病因。