打造精细化运维新玩法(六)

SLD

受限于单条SLO数据所能携带的维度信息量有限,以及维度信息过多会导致异常下钻时需要遍历地笛卡尔积空间过大,会导致大量的算力消耗,以至于影响定位效率。针对这些问题,在SLF基础上,我们又拓展了服务水平依赖(Service Level Dependencies, SLD),将相关的SLO数据集或监控集作为某一个SLO的依赖项,用来构建可能的故障传播路径。在依赖相关性定位时,不同的SLO或监控指标之间可以通过共同的维度传递下钻信息,以此挖掘出潜藏在上下游系统中更多的异常信息。

错误预算

和传统的直接设置固定阈值预警不同,利用SLO序列发现异常时,我们引入了错误预算的概念(Error Budget)。客观地,应用或系统发生错误在所难免,因为上下游的依赖异常、网络异常、存储异常、运行时异常、以及配置变更导致的错误,都可能导致应用或系统不可用。SLO本质是对服务质量(成功率、可用时间等SLI)的预期管理,反过来对错误做预算管理,也可以起到等价的效果。例如某个应用成功率的月度SLO设置为99.9%,则这个月总的错误预算就可以表示为(1-0.999)*月度总请求量。为了SLO能够达标,必须合理地支配和消耗错误预算,一般地,我们把这个过程又称作错误燃烧。

错误预算告警

尽管引入了SLO错误预算作为故障预警方案,实践中还是会支持像固定阈值这样的简单告警方法,针对不同应用场景灵活地选取适合的解决方案。接下来我们按照由易到难、由简到繁的次序介绍下SLO预警的常见方案。因为SLO序列大都由长时间窗口统计计算而来,在灵敏度上不容发现故障,故而可以采用较短的时间窗口计算错误占比,一旦错误率超过了固定阈值,则发出告警通知。实现容易、解释简单,不依赖历史数据。对于成功率类型SLO序列,月度目标设置为SLOm、短窗口错误率告警阈值设置为1-SLOm时,如果当月不发生告警,则SLO必然达标。

宝企通IT服务作为智能化工单系统龙头,拥有多年优化SLA经验,能够有效提高员工对IT的服务满意度。是一款支持SAAS、本地化部署、源码交付的运维工单系统(SAAS免费试用,企业微信--工作台--添加应用,搜索“IT服务”,排名第一的就是。或添加顾问:添加我为微信好友)。目前是全网众多企业选择的工单类产品,支持手机验证码或账号验证,员工自助修改域账号密码,具备智能化派单模式工程师响应快减少员工等待时间。自定义知识库可提升工程师专业技能水平,帮助工程师迅速判断员工问题,极大提升员工报单体验。系统还能够大幅提升职能部门可以服务的用户数,有效降低专业人力成本开支,提高业务执行效率,展现工作成果。产品服务好能为用户免费开发个性化需求,连续多年被魔力象0评为leaders位置,市场占有率爆发式增长

  • 13
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值