分布式系统链路追踪简述

最新推荐文章于 2024-05-10 09:30:00 发布

Mark_Aussie

最新推荐文章于 2024-05-10 09:30:00 发布

阅读量1.1k

点赞数 1

分类专栏： AIOps 文章标签：机器学习

本文链接：https://blog.csdn.net/MarkAustralia/article/details/125140812

版权

AIOps 专栏收录该内容

32 篇文章 26 订阅

订阅专栏

假设现有系统部署了上万个服务，用户通过浏览器在主界面下单一箱茅台酒，系统给用户提示：系统内部错误，运营人员将问题抛给开发人员定位，开发人员只知道有异常，但是这个异常具体是由哪个微服务引起的就需要逐个服务排查了。

界面出现异常难以排查后台服务，借助日志逐个排查的效率非常低，此时可使用链路追踪系统。

分布式链路追踪就是将一次分布式请求还原成调用链路，将一次分布式请求的调用集中展示，比如各个服务节点上的耗时、请求具体到达哪台机器上、每个服务节点的请求状态等等。

链路跟踪主要功能：

故障快速定位：可以通过调用链结合业务日志快速定位错误信息。
链路性能可视化：各个阶段链路耗时、服务依赖关系可以通过可视化界面展现出来。
链路分析：分析链路耗时、服务依赖关系得到用户行为路径，汇总分析多业务场景。

链路追踪系统（可能）最早是由Goggle公开发布的论文

《Dapper, a Large-Scale Distributed Systems Tracing Infrastructure》提出，

论文主要讲述Dapper链路追踪系统的基本原理和关键技术点。

Trace：链路，一个请求经过所有服务的路径，可用树状图表示。

上图是一条完整的链路：chrome -> 服务A -> 服务B -> 服务C -> 服务D -> 服务E -> 服务C -> 服务A -> chrome。服务间经过的局部链路构成了一条完整的链路，其中每一条局部链路都用一个全局唯一的 traceid 标识。

Span：上图中，请求经过服务A，服务A又调用服务B和C，但是调用顺序只有差代码才能确定；

为表达父子关系引入 Span 概念，同一层级 parent id 相同，span id不同，span id从小到大表示请求的顺序，从下图中可以很明显看出服务A是先调了服务B然后再调用了C，上下层级代表调用关系，下图中服务C的span id为2，服务D的parent id为2，表示服务C和服务D形成父子关系，是服务C调用了服务D。