大规模分布式链路分析计算在字节跳动的实践

字节跳动技术团队

于 2022-11-07 12:00:10 发布

阅读量5k

点赞数 1

文章标签：大数据分布式编程语言数据库人工智能

本文链接：https://blog.csdn.net/ByteDanceTech/article/details/127742558

版权

动手点关注

干货不迷路

1. 综述

微服务架构的快速发展使得分布式链路追踪系统成为观测体系中越来越重要的组件。字节跳动的分布式链路追踪系统经历了数年的发展后，已覆盖了字节的绝大部分在线业务，完成了对数万微服务和数百万微服务实例的在线链路追踪。在经典的指标观测分析和单请求链路追踪的基础上，如何从浩瀚如海的分布式链路数据中进一步挖掘出更高层次的信息，为业务的架构优化、服务治理、成本优化等场景提供更高效的数据支持，成为了下一步亟待回答的问题。

本次分享主要介绍我们构建海量链路数据分析计算系统的实践经验，以及一些具体的落地场景。

2. 可观测性与链路追踪

2.1 基本概念

为了方便读者更好的理解“链路分析”，首先浅聊一下什么是“可观测性”和“链路追踪”。对“可观测性”和“链路追踪”的概念已经熟悉的读者可以跳过本章节。

随着微服务架构的快速发展，软件系统正在从单体应用发展为由大量微服务节点构成的复杂应用。为了更好的管控复杂的软件系统，“可观测性”工具正在变得越来越重要。“可观测性”工具构建的基础是可观测性数据，可观测性数据一般包括如下部分：链路追踪 Trace、日志 Logging、时序 Metrics、代码级 Profiling、事件 Event 和元数据相关的 CMDB 等。

为了帮助大家对可观测性工具有一个更直观的感受，这里用一个例子来阐述如何基于可观测性工具来解决工作中的实际问题：某值班人员收到告警通知服务的失败率正在上升，点击关联到错误指标对应的 Trace，在 Trace 中定位到错误的源头，在源头查看到关键的异常日志和代码栈，并发现源头报错服务正在执行一个变更操作，于是基本定位到此变更很可能就是导致此故障的原因。有了高质量的可观测性数据和工具，一个对此系统并不是非常熟悉的值班人员，就可能快速地完成此次故障的排查与止损。

分布式链路追踪（Trace）是可观测性系统的其中一个组件。狭义上讲 Trace 是对单次请求的明细追踪，记录请求在各环节上的调用关系，耗时，以及各类明细标签与事件。同时 Trace 还有一个角色是各类可观测性数据的链接纽带，即同一个 Request Context 的数据载体，分布式请求上的各类信息（Metrics/Logs..）通过 Trace 实现了可靠关联，进而可以构建各类可观测性数据的上卷下钻的跳转功能。