混沌工程中的可观测性与业务价值评估
1. 可观测性的机遇
进行混沌工程实验,不仅需要在故障注入基础设施上投入,还需要在可观测性基础设施上投入。毕竟,如果无法观察系统在故障下的表现,进行实验也就失去了意义。
1.1 调用图跟踪
大多数请求级别的分布式跟踪基础设施都基于 Google 的 Dapper 设计。2012 年,Twitter 工程师实现了开源版本 Zipkin,到 2015 年,Zipkin 的克隆版本已在许多基于微服务的组织中广泛使用。如今,OpenTracing 为调用图跟踪提供了开放标准。
不过,拥有调用图跟踪系统的组织,对其潜在用例的理解往往较为狭隘,常见用例如下:
- 异常执行诊断 :用于诊断异常执行中出现的问题,例如理解特定请求失败或耗时过长的原因。
- 人工分析 :调用图主要供人类终端用户使用,因此不在自动化范围内。近期有很多工作致力于改进调用图的可视化,但对其进行批量分析的工作较少。
这些用例只是挖掘了跟踪中丰富信号潜在应用的冰山一角。对于正在接受培训的站点可靠性工程师(SRE)来说,研究系统正常运行的原因,而非仅仅诊断问题,具有重要价值。为了选择合适的实验并确定实验顺序,我们需要了解被测系统的稳定状态。这不仅涉及对系统健康的总体衡量,还包括理解单个成功或预期执行的样子。SRE 特别关注那些系统在容忍某些故障但仍能按预期运行的执行的调用图,这些图有助于解释系统如何容忍特定故障或故障组合。
2. 直觉工程的可观测性
可观测性基础设施的表面目的是在网站出现问题时协助进行故障排查,
订阅专栏 解锁全文
36

被折叠的 条评论
为什么被折叠?



