- 服务质量指标(SLI)、服务质量目标(SLO)、服务质量协议(SLA)
这三项分别是指该服务最重要的一些基础指标、这些指标的预期值,以及当指标不符合预期时的应对计划
- 大部分服务都将请求延迟—处理请求所消耗的时间——作为一个关键SLI
(a)其他常见的SLI包括错误率(请求处理失败的百分比)、系统吞吐量(每秒请求数量)等
(b)可用性(availability)是另外一个SRE重视的SLI,代表服务可用时间的百分比
(c)运维行业经常用9的数量来描述可用程度。例如,99%可用性被称为“2个9”,99.999%被称为“5个9”。目前Google 云计算服务公开的可用性指标是“3.5个9”—99.95% 可用
- SLO是服务质量目标(Objective):服务的某个SLI的目标值,或者目标范围。SLO的定义是SLI≤目标值,或者范围下限≤SLI≤范围上限
- 区别SLO和SLA的一个简单方法是问“如果SLO没有达到时,有什么后果?”
- 究竟如何来识别哪些指标对服务是最重要:理解用户对系统的真实需求才能真正决定哪些指标是否有用
(a)用户可见的服务系统,例如莎士比亚搜索服务的前端服务器通常关心可用性、延迟,以及吞吐量。换句话说:是否能正常处理请求?每个请求花费的时间是多少?多少请求可以被处理?
(b)存储系统通常强调:延迟、可用性和数据持久性。换句话说:读写数据需要多少时间?我们是否可以随时访
读书笔记(SRE:Google运维解密):第4章 服务质量目标
最新推荐文章于 2023-01-03 21:08:03 发布
服务质量指标(SLI)、服务质量目标(SLO)、服务质量协议(SLA)这三项分别是指该服务最重要的一些基础指标、这些指标的预期值,以及当指标不符合预期时的应对计划 大部分服务都将请求延迟—处理请求所消耗的时间——作为一个关键SLI(a)其他常见的SLI包括错误率(请求处理失败的百分比)、系统吞吐量(每秒请求数量)等(b)可用性(availability)是另外一个SRE重视的SLI,代表服务可用时间的百分比(c)运维行业经常用9的数量来描述可用程度。例如,99%可用性被称为“2个9”.
摘要由CSDN通过智能技术生成