1、SRE稳定性指标:MTBF、MTTR
SRE 稳定性要实现的目标就是 ”提升 MTBF、降低 MTTR”
1.1 术语简介
稳定性从衡量标准看,有两个非常关键的指标:MTTR 与 MTBF。MTBF 指示了系统正常运行的阶段,而 MTTR 则意味着系统故障状态的阶段。
- MTBF,Mean Time Between Failure,平均故障时间间隔
- Pre-MTBF 阶段(无故障阶段,故障演练,预案系统)
- Post-MTBF 阶段(无故障阶段,事后总结,事件管理)
- MTTR,Mean Time To Repair, 故障平均修复时间
- MTTI ,Mean Time To ldentify,平均故障发现时间(从故障实际发生,到真正开始响应,用户反馈、监控。优化点:依赖 AIOps 的能力,提升告警准确率,做出精准的响应)
- MTTK ,Mean Time To Know,平均故障认知时间(从响应到故障根因被定位出来。优化点:依赖 AIOps 的能力,根因分析系统,链路追踪系统)
- MTTF ,Mean Time To Fix,平均故障解决时间(从采取措施到恢复业务为止,常见的限流、降级、熔断,兜底,重启)
- MTTV ,Mean Time To Verify,平均故障修复验证时间(从故障解决后到通过用户反馈、监控指标观察等来确认业务是否真正恢复所用的时间)