前言
trace_id是用来标识同一个请求的唯一标识,不管请求经过多少服务,都可以通过tracid排查对应模块的日志信息找到对应请求的一些细节,是排查问题的一个重要线索。
在当下分布式系统相对成熟的环境下,链路追踪方案百花齐放,各种中间件层出不穷,不知道选哪个好。不过在早期的分布式应用里的链路追踪是自己实现的,以至于模块之间的调用有时会出现tracid为空的情况。这次正好遇到了这个bug,正好记录下。
首先先介绍下内部早期服务的链路追踪方案,Java服务这块是使用的SpringBoot+MDC实现,按正常的思路参数里默认加上了trace_id参数,进到服务的第一层时先判断当前线程上下文中是否存在trace_id变量,没有的话从请求参数里获取trace_id变量,如果请求中也没有则认为是入口请求,随机生成一个uuid作为trace_id向下传递。
MDC
MDC是一个映射,用于存储运行上下文的特定线程的上下文数据,本质上是一层对ThreadLocal的封装,在logback-spring.xml中配置上打印规则,使用log4j进行日志打印出每个应用的trace_id
css
复制代码
[%X{TRACE_ID}]
方案合情合理,页面端发起请求,网关服务生成trace_id向下传递,每个服务依次传递都很和谐,但就是在某个地方出现A服务通过RPC组件调用B服务时出现了BUG。这种年久失修的问题谁都不想改,但没办法指到了我这了只能硬着头皮查了。
理论上MDC绑定了线程信息,而且trace_id丢失的场景下没有多线程线程切换的场景,那么只能把矛头指向祖传的拦截器和过滤