系统监控的四个黄金指标

最新推荐文章于 2025-02-24 14:28:57 发布

wangxiaoangg

最新推荐文章于 2025-02-24 14:28:57 发布

阅读量3.8k

点赞数 2

分类专栏： SRE 文章标签： sre 监控指标

原文链接：https://sre.google/sre-book/monitoring-distributed-systems/

版权

SRE 专栏收录该内容

5 篇文章

订阅专栏

Google SRE提出的四个关键监控指标——延迟、流量、错误和饱和度，对于服务性能至关重要。延迟关注请求响应时间，流量衡量服务需求，错误涉及客户端请求失败，饱和度则反映服务器资源利用率。通过监控这些指标，可以及时发现服务问题，调整资源分配，确保服务稳定性和效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Google SRE 定义了四个需要监控的关键指标。延迟（Latency），流量（Traffic），错误（Errors）和饱和度（Saturation）。

正如google sre 所讨论的，如果您只能衡量服务的四个指标，请关注这四个指标。

延迟 Latency

延迟是服务处理传入请求和发送响应所用时间的度量。测量服务延迟有助于及早发现服务的缓慢。

流量 Traffic

流量可以更好地理解服务需求。通常称为服务 QPS（每秒查询数），流量是服务请求量的度量。此信号可帮助您决定何时需要扩大服务规模以应对不断增长的客户需求，或缩小服务规模以提高成本效益。

错误 Errors

错误是对客户端请求失败的度量。这些故障可以根据响应代码（HTTP 5XX 错误）轻松识别。

在某些情况下，由于错误的结果数据或违反了约定，响应被认为是错误的。例如，您可能会收到HTTP 200 响应，但返回的数据不完整，或者响应时间超出了约定的 SLA。因此，除了响应码之外，可能还需要其他机制（代码逻辑）来捕获错误。

饱和度 Saturation

饱和度是服务器资源利用率的度量。这个信号告诉你服务资源的状态以及它们有多“满”。

这些资源包括内存、cpu、网络 I/O 等。在资源利用率达到 100% 之前，服务性能也会缓慢下降。因此，有一个利用率目标很重要。延迟的增加是饱和度的一个很好的指标；测量延迟99线有助于及早发现饱和度。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。