监控之告警恢复

背景:

目前我们监控按系统结构来说分为两块:即时告警周期告警
(功能的话涉及日志告警、业务即时告警、业务周期告警、JVM、服务质量告警)

1.即时告警Alert主要流程是各业务写数据到本地日志,docker挂载到指定路径,我们的flume采集到数据上报kafka。
Alert消费kafka,用户设置匹配规则,阈值,当匹配上并达到阈值则调用notify模块发告警。(每次匹配上一条数据则redis set key value + 1)

2.Collector模块会收集数据到Hbase
周期告警是用户设置查询,表达式,触发器,任务执行时间。
例如5分钟一次查询数据,结果作为原始数据进行表达式计算,然后判断是否触发。如果触发则调用notify模块发送告警。


告警恢复策略

构思如下:(同时间alert不会太多,不需要考虑性能问题,并且由quartz保证多节点问题)
即时告警 & 周期告警
每次触发告警,同时redis(insert/update): (policyId:查询时间)

另外任务中心jobmgr启动时初始化告警恢复job。每半分钟执行一次
轮询redis的map,如果当前时间>查询时间,则发送告警恢复邮件,并清除redis记录

:由于我们认为即时告警达到阈值(例如3)发送一次告警后,下个5分钟即使只有2没有触发,也算错误。因此即时告警不是触发后redis insert/update,而是在匹配上一条的时候就updateIfExist();

周期告警则正常流程

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值