如何配置高质量的告警

运维工程师吐槽起告警问题,人人都是BBKing!

每天应对花式告警问题,

无关紧要的、短时急剧爆发的

被疲劳告警淹没的重要告警

和每天崭新的太阳一样,

每次的告警也是独一无二的!

想躺平,不可能

下一秒的救火也许正在路上。

为什么配出高质量告警很难?

首先,告警阈值的设定并不是一劳永逸

传统静态阈值的告警规则,

需要工程师对每个指标设置固定阈值来定位正常水位,

超出阈值则产生告警,逻辑没有问题

投入到实际应用中,

对应接口、应用不同,阈值也各不一样。

一个企业往往有上百个应用,几十条关键指标

依赖人力不断设定和维护,是一项浩大的工程。

并且随着业务的发展,代码不断变更,

各项指标的正常水位也在不断变化,

阈值的调整似乎时时在更新,

需要注意的是,

阈值的合理性难以及时验证,

会随着时间和业务的变化产生变化

其次,系统应用之间千丝万缕的关系

往往容易牵一发动全身。

一个环节异常都可能导致业务故障,

系统中任何一个监控对象的告警

都可能引发其它多个相关策略告警

告警的相关度高达90%以上。

降噪、去重、收敛压缩是必然之举。

如何配出高质量告警

①智能化的告警

静态阈值难以满足RT、QPS等波动型指标的监控功能,

我们推荐动态阈值也叫区间检测功能,

根据7天历史数据预测指标上下边界,

自动调整阈值,超出阈值则触发告警。

用户在配置区间检测任务后,

AI机器学习算法会根据,

历史数据特征提取指标趋势性、季节性等特征

得到未来24h的预测曲线,

再根据指标自身的波动情况,

为未来一天的指标数据划定一个区间。

相比静态阈值,用户业务变化导致指标波动,

再也不用依赖工程师手动调整阈值,

既高效也避免手动误操作

一次配置终身学习,长期有效。

②及时地验证告警的合理性

使用户能够根据业务调整算法推荐的阈值

我们将告警分为p1-p5级,

5个代表不同严重程度的阈值,

并且给出指标实际值和阈值对比图,

用户可根据指标配置不同告警级别,

触发告警时会显示不同的告警级别

帮助用户提高响应决策和合理分派资源。

③趋势性预测功能

机器学习算法根据历史24h数据,

计算指标会超出每个阈值的次数,

来预测设定条件下告警数量。

用户根据趋势算法,可以提前预防,

既能在业务高峰期减少信息发送进行降噪,

同时在业务低谷期可以全部发送防止遗漏

高效解决异常问题,提高系统的稳定性。

④智能降噪

利用人工智能和机器学习算法

自动识别和过滤不必要的告警

通过分析历史数据,学习系统行为和模式,

以及应用预定义的规则和算法,

自动识别和过滤掉不重要的告警,

保留真正重要和有价值的告警

从而减少运维团队负担

⑤告警及时响应

根据告警级别和内容自定义分派条件,

和人员、团队、排班计划相结合,

实现告警在第一时间得到响应,

如超时未响应则会自动触发升级策略,

通过邮件、短信、电话、语言等

直达责任人,全方位减少告警遗漏,

确保问题得到真正响应。

南京林科斯拉-智能运维管家,智能极简 全栈监控。 (linksla.cn)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值