打造精细化运维新玩法(七)

错误预算+燃烧速率告警

燃烧率(Burn Rate)是指将总的错误预算均匀地分配到告警窗口中的系数。比如月度SLO刚好达标时,将错误预算刚好消耗殆尽的燃烧系数定义为1,故当燃烧率为2时,错误预算会在月中被消耗完,然后SLO破线不达标。基于这些概念,我们就可以用公式简单推导出触发告警所需要的时间,即告警灵敏度。同时,我们也可以大致估计出,告警触发时消耗了总错误预算的比例。

利用错误预算和燃烧率,在告警发生时,我们可以大致推算出本次告警对SLO的威胁,因此设置不同的燃烧速率,可以有效预估告警的严重程度。

根据不同燃烧速率的SLO预警指定告警程度,再为不同级别的告警配置不同的通知渠道和接收人。同时可以结合精度不同的告警窗口,设置更加灵活的多消耗速率告警,既保证了告警发现的时间分辨率和敏感度,也能保持良好的召回和准确率。当然,该预警方案的缺点也非常明显,需要设置多个窗口和不同燃烧速率对应的告警参数,使得告警设置变得略有难度,如何解此问题将在下一章内容中展开介绍。尽管如此,当所有参数设置得当,该方案依然是最佳选择。基于SLO错误预算预警的方案,最大的优势在于告警发生时,我们可以近似地预估一次告警对于SLO能否达标的影响程度。

通过SLO预警机制,SRE的注意力更多地聚焦在了服务能力和服务水平之上,从疲于应对的单机告警泥淖和深渊中解放出来。在SLO健康度体系下,服务端和客户端基于服务水平和服务能力对齐共识,利用SLO数据做横向通晒,针对高优先级别的SLO告警进行故障复盘,根据复盘内容沉淀专家经验和构建应急知识库。如此循环,通过SLO驱动,应用或系统不断地持续迭代和打磨,服务质量也会显著得到提升。

宝企通IT服务作为智能化工单系统龙头,拥有多年优化SLA经验,能够有效提高员工对IT的服务满意度。是一款支持SAAS、本地化部署、源码交付的运维工单系统(SAAS免费试用,企业微信--工作台--添加应用,搜索“IT服务”,排名第一的就是。或添加顾问:添加我为微信好友)。目前是全网众多企业选择的工单类产品,支持手机验证码或账号验证,员工自助修改域账号密码,具备智能化派单模式工程师响应快减少员工等待时间。自定义知识库可提升工程师专业技能水平,帮助工程师迅速判断员工问题,极大提升员工报单体验。系统还能够大幅提升职能部门可以服务的用户数,有效降低专业人力成本开支,提高业务执行效率,展现工作成果。产品服务好能为用户免费开发个性化需求,连续多年被魔力象0评为leaders位置,市场占有率爆发式增长

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值