本文介绍了一种基于Zabbix实现贴合业务场景的告警聚合的方法。
本方法的思路是通用的,并不局限于某一具体的软件。
注意,具体的参数可以根据实际情况进行设置和选用,文中所述仅是一种示例。
![](https://i-blog.csdnimg.cn/blog_migrate/69bd86e56c021c35f324fc89563631f1.png)
1. 引言
1.1 背景
IT运维怕什么?告警。而告警洪灾更是噩梦,正愉快写着文档时猛然来了无数个夺命连环Call,现在只是稍微想象一下就开始头疼了。
一般来说,告警洪灾的常见原因有:
算法(包括简单的预测算法以及机器学习)的局限性;
告警规则配置不合理;
将过多的指标放入了告警规则中,而其实人并不需要对它们进行处理;
告警阈值过于苛刻;
外部通知(邮件、企业微信等)过于零散;
初步分析:
算法的局限性
现实情况复杂多变,比如节日的抢购或甚至临时上线的活动,而有时网络波动也会导致数据异常进而误触发告警。
当然,长期的机器学习以及算法的进步应该能缓解这一问题,但较短时间内难以看到成效,而且可能会起到反作用。目前它还更多的是在探索试用阶段,本文暂不对此进行讨论。
告警规则配置不合理
不论是将过多的指标放入了告警规则中,还是告警阈值过于苛刻,都是因为开始的时候会担心错过了告警,追求大而全的监控和告警配置。