B. Google SRE指导思想

最新推荐文章于 2024-12-11 17:00:16 发布

micklongen

最新推荐文章于 2024-12-11 17:00:16 发布

阅读量651

点赞数

CC 4.0 BY-SA版权

分类专栏： Google SRE运维解密文章标签： SRE 运维

本文链接：https://blog.csdn.net/micklongen/article/details/89739472

9 篇文章

订阅专栏

本文围绕Google SRE指导思想展开，介绍了拥抱风险、服务质量目标、分布式系统监控、自动化系统和发布工程等内容。详细阐述了服务质量指标、目标定义及选择，监控类型和黄金指标，自动化系统的价值和类型等信息技术相关要点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

观点
- Google趋向于使用监看和快速的监控系统配合高效的工具进行事后分析。我们会避免任何“魔法”系统 — 例如试图自动学习阈值或者自动检测故障原因的系统
监控类型
- 白盒监控
- 黑盒监控
4个黄金指标
- 延迟：处理某个请求所需要的时间
- 流量：HTTP请求数量，或者网络I/O速率，或者并发会话数
- 错误：有可能是显示错误、隐式错误（返回错误信息）、或者策略性错误（比如说超过1s返回就算错）
- 饱和度：很多服务在资源占用达到100%之前，性能就已经严重下降了
长尾问题：例如平均响应时间100ms，但是1%的请求会占到5s
- 分位数统计
- 分组：比如说0_{10ms请求数，30}100ms请求数，等等
不同指标采用不同的精度
- 比如
  - CPU 1分钟的平均负载，可能措施峰值
  - 年度可用性在99.9%的服务每分钟检测1~2次可能过于频繁
  - 年度可用性在99.9%的服务每分钟检测磁盘容量可能过于频繁
  - 等等
战术
- 短期可用性和长期可用性之间的冲突和平衡