1. APM
1.1. 什么是 APM 系统?
APM 系统可以帮助理解系统行为、用于分析性能问题的工具, 以便发生故障的时候, 能够快速定位和解决问题, 这就是 APM 系统, 全称是 (Application Performance Monitor)。
谷歌公开的论文提到的 Google Dapper 可以说是最早的 APM 系统了, 给 google 的开发者和运维团队帮了大忙, 所以谷歌公开论文分享了 Dapper。
而后, 很多的技术公司基于这篇论文的原理, 设计开发了很多出色的 APM 框架, 例如 Pinpoint、SkyWalking 等。
1.2. APM 的基本原理
目前大部分的 APM 系统都是基于 Google 的 Dapper 原理实现, 我们简单来看看 Dapper 中的概念和实现原理。
先来看一次请求调用示例:
- 服务集群中包括: 前端 (A), 两个中间层 (B 和 C), 以及两个后端 (D 和 E)
- 当用户发起一个请求时, 首先到达前端 A 服务, 然后 A 分别对 B 服务和 C 服务进行 RPC 调用;
- B 服务处理完给 A 做出响应, 但是 C 服务还需要和后端的 D 服务和 E 服务交互之后再返还给 A 服务, 最后由 A 服务来响应用户的请求;
1.3. 如何才能实现跟踪呢?
Google 的 Dapper 设计了下面的几个概念用来记录请求链路:
- Span: 请求中的基本工作单元, 每一次链路调用 (RPC、Rest、数据库调用) 都会创建一个 Span。大概结构如下:
type Span struct