现在告警系统可以说是系统的必备部分,只要有监控,就需要一个告警系统来帮忙主动推送消息,以此减少人不停的主动查看监控的作用。
在最初的告警系统中,基本主要就是设置阈值,达到阈值就发生告警。这个在机器数量少的时候是满足需求的。例如10个进程,就算都出问题也就是10条告警。在使用的过程中,随着进程数量的增多,告警种类的增多。会出现告警的洪荒,一直不停的收到告警。
重复性
为了准确的传达告警信息,告警的设计要只要问题不解决就需要一直告警,否则很容易出现告警信息不可达,人查看的时候忽略了。这种问题,需要让告警持续的发送,直到解除为止。
分级
这里为了减少告警信息,我们会设置告警的级别。
cpu >80 严重
80 > cpu > 50 一般
然后发送告警的时候加上告警级别,邮件的规则根据告警的级别进行分类,就可以很容易的去找出严重的优先处理,一般的紧急程度就低一些。
静默
虽然通过级别可以筛选出一些特别重要的信息,但是告警是一直持续发送的。例如cpu只要还在超过80,一定的时间间隔内,就会继续发送告警,严重级别的邮箱很快也多起来。而且是同一个告警的不同时间的信息。这个时候如果有其他严重级别的告警的时候,很容易被冲刷掉。导致了一定的延后性,需要指望这个告警信息也不停的发送,如果间隔时间不一样的话,很容易出现一些失误。
这里就需要有一个静默功能。
例如我收到了A进程的cpu使用率的告警,我现在开始去做处理,这时候并不能立马解决这个问题。可以通过静默的功能,把A进程的cpu告警取消发送