My Philosophy on Alerting 的告警规则思考

本文探讨了在编写报警规则时的关键要素,包括清晰理解故障类型、优先级划分、避免过度监控、精准描述告警、分类问题和合理触发时机。此外,还涉及采样值与阈值设定,以及提升处理效率的方法,如合理的轮岗制度和操作指南。
摘要由CSDN通过智能技术生成

参考文章
My Philosophy on Alerting

编写报警规则时,需要考虑的原则,参考了上述文章

哪些问题需要告警

  1. 对故障有足够清晰的认知,有合理的优先级区分标准
    • 研发资源总是有限的,尽可能保证高优先级的告警被快速相应
  2. 过度监控比监控不足更加棘手,应移除告警噪音

怎样描述告警

  1. 尝试给问题分类,使问题能够被归集,而且有快速的排查方向
    • 可用性与基本功能问题
    • 延迟
    • 正确性(数据的完整性、时效性和持久性)
    • 其它功能问题
  2. 合理描述告警的内容,更全面,更可靠地描述问题
  3. 尝试给出问题的出现原因,而非直接描述问题,需要注意颗粒度大小的问题,颗粒度过小最后会导致问题过于具象,不易于归纳原因
  4. 尝试给出与问题对应的行动指引,假如对问题产生有足够的了解
  5. 如果尝试定位问题,

什么时候发送告警

  1. 采样的值

    • 某个时间点的值
    • 某个时间段的统计值(min/max/average)
    • 基于某个时间段的表现预测未来的值
  2. 设定的阈值

    • 下界(low bound)
    • 上界(maximum)

当采样的值与上下界有冲突的时候,就是告警的时候。告警可以针对当前,也可以针对预测的值

怎么提高处理告警的效率

  1. 合理的 oncall 表
  2. 有清晰易懂的操作手册,
  3. 合理使用系统或者工具来记录或者处理需要及时响应但不是紧迫的事情
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值