运维工程师吐槽起告警问题,人人都是BBKing!
每天应对花式告警问题,
无关紧要的、短时急剧爆发的
被疲劳告警淹没的重要告警
和每天崭新的太阳一样,
每次的告警也是独一无二的!
想躺平,不可能
下一秒的救火也许正在路上。
为什么配出高质量告警很难?
首先,告警阈值的设定并不是一劳永逸
传统静态阈值的告警规则,
需要工程师对每个指标设置固定阈值来定位正常水位,
超出阈值则产生告警,逻辑没有问题
投入到实际应用中,
对应接口、应用不同,阈值也各不一样。
一个企业往往有上百个应用,几十条关键指标
依赖人力不断设定和维护,是一项浩大的工程。
并且随着业务的发展,代码不断变更,
各项指标的正常水位也在不断变化,
阈值的调整似乎时时在更新,
需要注意的是,
阈值的合理性难以及时验证,
会随着时间和业务的变化产生变化。
其次,系统应用之间千丝万缕的关系
往往容易牵一发动全身。
一个环节异常都可能导致业务故障,
系统中任何一个监控对象的告警
都可能引发其它多个相关策略告警
告警的相关度高达90%以上。
降噪、去重、收敛压缩是必然之举。
如何配出高质量告警
①智能化的告警
静态阈值难以满足RT、QPS等波动型指标的监控功能,
我们推荐动态阈值也叫区间检测功能,
根据7天历史数据预测指标上下边界,
自动调整阈值,超出阈值则触发告警。
用户在配置区间检测任务后,
AI机器学习算法会根据,
历史数据特征提取指标趋势性、季节性等特征
得到未来24h的预测曲线,
再根据指标自身的波动情况,
为未来一天的指标数据划定一个区间。
相比静态阈值,用户业务变化导致指标波动,
再也不用依赖工程师手动调整阈值,
既高效也避免手动误操作
一次配置终身学习,长期有效。
②及时地验证告警的合理性
使用户能够根据业务调整算法推荐的阈值
我们将告警分为p1-p5级,
5个代表不同严重程度的阈值,
并且给出指标实际值和阈值对比图,
用户可根据指标配置不同告警级别,
触发告警时会显示不同的告警级别
帮助用户提高响应决策和合理分派资源。
③趋势性预测功能
机器学习算法根据历史24h数据,
计算指标会超出每个阈值的次数,
来预测设定条件下告警数量。
用户根据趋势算法,可以提前预防,
既能在业务高峰期减少信息发送进行降噪,
同时在业务低谷期可以全部发送防止遗漏
高效解决异常问题,提高系统的稳定性。
④智能降噪
利用人工智能和机器学习算法
自动识别和过滤不必要的告警
通过分析历史数据,学习系统行为和模式,
以及应用预定义的规则和算法,
自动识别和过滤掉不重要的告警,
保留真正重要和有价值的告警
从而减少运维团队负担
⑤告警及时响应
根据告警级别和内容自定义分派条件,
和人员、团队、排班计划相结合,
实现告警在第一时间得到响应,
如超时未响应则会自动触发升级策略,
通过邮件、短信、电话、语言等
直达责任人,全方位减少告警遗漏,
确保问题得到真正响应。