SRE团队KPI制定思路

ad0910877a4475f66ef798b7d8383116.png

总目标“可用性”带来的问题

对于SRE来说,他们的终极KPI是可用性。但是,这个KPI对于SRE团队来说没有任何的指导意义。就好比篮球比赛上的目标是100分,它也不会教你的团队如何在一场比赛中拿到100分。我们应该思考的是如何在篮球比赛拿分,是通过提升个人能力,还是通过战术等。

说到底,不论是篮球分数,还是可用性,它们都是结果性指标,是无法指导我们的过程的。我们应该把精力放在过程指标,而不是结果指标。球场上的球员紧盯着计分牌对于得分是起不了任何作用的。

所以,我们需要对“高可用”这个指标进行更深入的思考才能确定我们真正的KPI。

更深入思考可用性

深入思考可用性,你遇到的第一个问题是,对于服务A,可用性指的是什么?如果没有定义,就无法谈“达到可用性”。

那么可用性指的是什么呢?可用性通常和业务指标有关。因为业务目标是软件存在的意义。比如对于语音相关的服务,它的可用性指标可以是:语音交互失败数、语音交互耗时等。

达到可用性目标的方法

不论可用性对于业务指标的定义是什么,个人认为都可以通过以下方法达到:

  1. 减少影响可用性的因素

  2. 减少解决可用性问题的时间

方法1:减少影响可用性的因素

要回答这个问题,我们需要先确定有哪些因素导致服务不可用。目前能看到的因素有:

  1. 性能因素,包括应用级别、基础设施级别等;

  2. 容量因素,包括负载均衡连接数及带宽、数据库容量等;

  3. 安全因素,包括DDOS等;

  4. 外部依赖因素,包括依赖的第三方服务挂了等;

  5. 人为因素,包括错误的配置、业务逻辑错误等;

  6. 不可抗拒因素,包括光缆被挖断、水泡机房等。

方法2:减少解决可用性问题的时间

简单地说就是:减少发现故障的时间和减少修复故障的时间。

可用性KPI制定具体步骤

根据“可用性”的思考,个人认为可用性KPI的制定的具体步骤如下:

  1. SRE与各业务团队共同确定以什么业务指标作为可用性指标;

  2. 监控该可用性指标,并保证全年数据;

  3. 监控所有的影响可用性的因素、并制定应对方案;

  4. 制定故障发现与恢复记录机制;

  5. 列出所有导致故障发现时间延长的因素,并解决;

  6. 列出所有导致可用性恢复时间延长的因素,并解决。

欢迎关注:持续交付实践指南

过往好文推荐:

SRE问题排查四步法——以建立HTTPS连接失败问题排查为例

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值