一、Spring Cloud Sleuth的由来
在大型系统的微服务化构建中,一个系统会被拆分成许多模块。这些模块负责不同的功能,最终组合成一个系统,可以提供丰富的功能。在这种架构中,一次请求往往需要涉及到多个微服务。互联网应用构建在不同的软件模块集上,这些软件模块,有可能是由不同的团队开发、可能使用不同的编程语言来实现、 有可能布在了几千台服务器,横跨多个不同的数据中心,这也就意味着这种架构形式也会存在一些问题:
- 如何快速发现问题?
- 如何判断故障影响范围?
- 如何梳理服务依赖以及依赖的合理性?
- 如何分析链路性能问题以及实时容量规划?
而分布式链路追踪(Distributed Tracing)技术,就是将一次分布式请求还原成调用链路、进行日志记录、进行性能监控并将一次分布式请求的调用情况集中展示。比如各个服务节点上的耗时、请求具体到达哪台机器 上、每个服务节点的请求状态等等。
目前业界比较流行的链路追踪系统有:
大部分都是基于google发表的Dapper:
http://bigbully.github.io/Dapper-translation/
Dapper阐述了分布式系统,特别是微服务架构中链路追踪的概念、数据表示、埋点、传递、收集、存储与展示等技术细节。
- Twitter的Zipkin
- 阿里的鹰眼
- 美团的Mtrace
- 大众点评的cat
二、什么是Spring Cloud Sleuth?
-
Spring Cloud Sleuth 是分布式系统中跟踪服务间调用的工具,它可以直观地展示出一次请求的调用过程。
-
随着我们的系统越来越庞大,各个服务间的调用关系也变得越来越复杂。当客户端发起一个请求时,这个请求经过多个服务后,最终返回了结果,经过的每一个服务都有可能发生延迟或错误,从而导致请求失败。
-
Spring Cloud Sleuth 就是一个很好用的分布式请求链路跟踪工具,可以来帮助我们理清请求调用的服务链路, 并且兼容支持了 zipkin。
三、相关的术语
-
Span
基本工作单元,例如:在一个新建的 span 中发送一个RPC等同于发送一个回应请求给 RPC,span通过一个64位ID唯一标识,trace以另一个64位ID表示,span还有其他数据信息,比如摘要、时间戳事件、关键值注释(tags)、span的ID、以及进度ID(通常是IP地址) span在不断的启动和停止,同时记录了时间信息,当你创建了一个span,你必须在未来的某个时刻停止它。
-
Trace
一系列 span 组成的一个树状结构,例如:如果你正在跑一个分布式大数据工程,你可能需要创建一个trace。
-
Annotation
用来及时记录一个事件的存在,一些核心 annotations 用来定义一个请求的开始和结束。
- cs - Client Sent:客户端发起一个请求,这个annotion描述了这个span的开始
- sr - Server Received:服务端获得请求并准备开始处理它,如果将其sr减去cs时间戳便可得到 网络延迟
- ss - Server Sent:注解表明请求处理的完成(当请求返回客户端),如果ss减去sr时间戳便可得 到服务端需要的处理请求时间
- cr - Client Received:表明span的结束,客户端成功接收到服务端的回复,如果cr减去cs时间 戳便可得到客户端从服务端获取回复的所有所需时间
四、链路追踪功能
-
添加依赖
<!--链路追踪--> <dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-cloud-starter-sleuth</artifactId> </dependency> <!--链路分析--> <dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-cloud-starter-zipkin</artifactId> </dependency>
-
添加配置
-
链路追踪配置
logging: level: root: INFO org.springframework.web.servlet.DispatcherServlet: DEBUG org.springframework.cloud.sleuth: DEBUG
-
链路分析配置
spring: zipkin: # zipkin的服务地址 base-url: http://localhost:9411 # 请求方式,默认以http的方式向zipkin server发送追踪数据 sender: type: web sleuth: sampler: # 设置 sleuth 的日志采样百分比(默认0.1) probability: 0.1
-
-
测试
启动微服务调用之后,我们可以在控制台观察到 sleuth 的日志输出。
其中 ff8ff8b803a3b558 是TraceId,后面跟着的是 SpanId,依次调用有一个全局的TraceId,将这些链路串起来。
五、链路日志分析
利用Zipkin, Zipkin是Twitter的一个开源项目,可以用来获取和分析Spring Cloud Sleuth 中产生的请求链路跟踪日志。
-
下载Zipkin
下载地址地址
:https://repo1.maven.org/maven2/io/zipkin/java/zipkin-server/2.12.9/zipkin-server-2.12.9-exec.jar -
启动Zipkin
# 默认启动方式 java -jar zipkin-server-2.12.9-exec.jar # 指定JVM内存大小启动 MEM_MAX_SPANS=1000000 java -Xmx1G -jar zipkin.jar
-
访问Zipkin
访问地址
:http://localhost:9411 -
测试
调用服务接口: http://localhost:8301/user/1
-
查看请求链路信息
-
点击查看服务详情
-
-
改进优化
六、存储日志
如果我们把zipkin-server重启一下就会发现刚刚的存储的跟踪信息全部丢失了,可见其是默认存储在内存中,而有时候我们需要将所有信息存储下来。
- 存储方式
InMemory
MySQL
ElasticSearch
Cassandra
利用ElasticSearch持久存储
-
下载安装
https://www.elastic.co/cn/downloads/past-releases/elasticsearch-6-2-2
-
解压
-
运行
-
-
启动服务
# STORAGE_TYPE:表示存储类型 # ES_HOSTS: 表示ES的访问地址 STORAGE_TYPE=elasticsearch ES_HOSTS=http://myhost:9200 java -jar zipkin.jar
-
测试
调用服务接口: http://localhost:8301/user/1
查看ElasticSearch的可视化面板Kibana
重启Zipkin
利用MySQL持久存储
-
创建数据库
CREATE DATABASE /*!32312 IF NOT EXISTS*/`zipkin` /*!40100 DEFAULT CHARACTER SET utf8 */; USE `zipkin`; DROP TABLE IF EXISTS `zipkin_annotations`; CREATE TABLE `zipkin_annotations` ( `trace_id_high` bigint(20) NOT NULL DEFAULT '0' COMMENT 'If non zero, this means the trace uses 128 bit traceIds instead of 64 bit', `trace_id` bigint(20) NOT NULL COMMENT 'coincides with zipkin_spans.trace_id', `span_id` bigint(20) NOT NULL COMMENT 'coincides with zipkin_spans.id', `a_key` varchar(255) NOT NULL COMMENT 'BinaryAnnotation.key or Annotation.value if type == -1', `a_value` blob COMMENT 'BinaryAnnotation.value(), which must be smaller than 64KB', `a_type` int(11) NOT NULL COMMENT 'BinaryAnnotation.type() or -1 if Annotation', `a_timestamp` bigint(20) DEFAULT NULL COMMENT 'Used to implement TTL; Annotation.timestamp or zipkin_spans.timestamp', `endpoint_ipv4` int(11) DEFAULT NULL COMMENT 'Null when Binary/Annotation.endpoint is null', `endpoint_ipv6` binary(16) DEFAULT NULL COMMENT 'Null when Binary/Annotation.endpoint is null, or no IPv6 address', `endpoint_port` smallint(6) DEFAULT NULL COMMENT 'Null when Binary/Annotation.endpoint is null', `endpoint_service_name` varchar(255) DEFAULT NULL COMMENT 'Null when Binary/Annotation.endpoint is null', UNIQUE KEY `trace_id_high` (`trace_id_high`,`trace_id`,`span_id`,`a_key`,`a_timestamp`) COMMENT 'Ignore insert on duplicate', KEY `trace_id_high_2` (`trace_id_high`,`trace_id`,`span_id`) COMMENT 'for joining with zipkin_spans', KEY `trace_id_high_3` (`trace_id_high`,`trace_id`) COMMENT 'for getTraces/ByIds', KEY `endpoint_service_name` (`endpoint_service_name`) COMMENT 'for getTraces and getServiceNames', KEY `a_type` (`a_type`) COMMENT 'for getTraces', KEY `a_key` (`a_key`) COMMENT 'for getTraces', KEY `trace_id` (`trace_id`,`span_id`,`a_key`) COMMENT 'for dependencies job' ) ENGINE=InnoDB DEFAULT CHARSET=utf8 ROW_FORMAT=COMPRESSED; /*Data for the table `zipkin_annotations` */ /*Table structure for table `zipkin_dependencies` */ DROP TABLE IF EXISTS `zipkin_dependencies`; CREATE TABLE `zipkin_dependencies` ( `day` date NOT NULL, `parent` varchar(255) NOT NULL, `child` varchar(255) NOT NULL, `call_count` bigint(20) DEFAULT NULL, UNIQUE KEY `day` (`day`,`parent`,`child`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8 ROW_FORMAT=COMPRESSED; /*Data for the table `zipkin_dependencies` */ /*Table structure for table `zipkin_spans` */ DROP TABLE IF EXISTS `zipkin_spans`; CREATE TABLE `zipkin_spans` ( `trace_id_high` bigint(20) NOT NULL DEFAULT '0' COMMENT 'If non zero, this means the trace uses 128 bit traceIds instead of 64 bit', `trace_id` bigint(20) NOT NULL, `id` bigint(20) NOT NULL, `name` varchar(255) NOT NULL, `parent_id` bigint(20) DEFAULT NULL, `debug` bit(1) DEFAULT NULL, `start_ts` bigint(20) DEFAULT NULL COMMENT 'Span.timestamp(): epoch micros used for endTs query and to implement TTL', `duration` bigint(20) DEFAULT NULL COMMENT 'Span.duration(): micros used for minDuration and maxDuration query', UNIQUE KEY `trace_id_high` (`trace_id_high`,`trace_id`,`id`) COMMENT 'ignore insert on duplicate', KEY `trace_id_high_2` (`trace_id_high`,`trace_id`,`id`) COMMENT 'for joining with zipkin_annotations', KEY `trace_id_high_3` (`trace_id_high`,`trace_id`) COMMENT 'for getTracesByIds', KEY `name` (`name`) COMMENT 'for getTraces and getSpanNames', KEY `start_ts` (`start_ts`) COMMENT 'for getTraces ordering and range' ) ENGINE=InnoDB DEFAULT CHARSET=utf8 ROW_FORMAT=COMPRESSED;
-
启动服务
java -jar zipkin.jar \ --STORAGE_TYPE=mysql \ --MYSQL_HOST=127.0.0.1 \ --MYSQL_TCP_PORT=3306 \ --MYSQL_USER=root \ --MYSQL_PASS=root \ --MYSQL_DB=zipkin
-
测试使用
调用服务接口: http://localhost:8301/user/1
查看数据库
重启Zipkin
七、收集日志
默认采用的是HTTP方式进行收集的,但HTTP方式有可能由于网络原因产生故障,所以可以使用消息队列进行收集。
- 收集方式
HTTP
ActiveMQ
RabbitMQ
Kafka
GRPC
利用RabbitMQ收集
-
启动RabbitMQ
-
启动Zipkin
java -jar zipkin.jar \ --RABBIT_ADDRESSES=127.0.0.1:5672 \ --RABBIT_USER=guest \ --RABBIT_PASSWORD=guest
-
查看RabbitMQ
-
客户端
-
添加依赖
<dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-cloud-starter-sleuth</artifactId> </dependency> <dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-cloud-starter-zipkin</artifactId> </dependency> <dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-cloud-sleuth-zipkin</artifactId> </dependency> <dependency> <groupId>org.springframework.amqp</groupId> <artifactId>spring-rabbit</artifactId> </dependency>
-
添加配置
spring: zipkin: sender: type: rabbit sleuth: sampler: probability: 1.0 rabbitmq: host: localhost port: 5672 username: guest password: guest listener: direct: retry: enabled: true simple: retry: enabled: true
-
-
测试
关闭Zipkin Server服务,并调用服务接口: http://localhost:8301/user/1
-
打开 rabbitmq 管理后台可以看到,请求链路的消息已经推送到了 rabbitmq。
-
启动 Zipkin Server 服务,会发现它自动的从 rabbitmq 获取消息并消费,从而展示追踪的数据。
-
八、什么是Zipkin?
-
概述
- Zipkin 是 Twitter 的一个开源项目,它基于 Google Dapper 实现,它致力于收集服务的定时数据,以解决微服务架构中的延迟问题,包括数据的收集、存储、查找和展现。
- Zipkin 可以使我们收集各个服务器上请求链路的跟踪数据,并通过它提供的 REST API 接口来辅助我们查询跟踪数据以实现对分布式系 统的监控程序,从而及时地发现系统中出现的延迟升高问题并找出系统性能瓶颈的根源。
- Zipkin 除了提供面向开发的 API 接口之外,它也提供了方便的 UI 组件来帮助我们直观的搜索跟踪信息和分析请求链路明细,比如:可以查询某段时间内各用户请求的处理时间等。
- Zipkin 提供了可插拔数据存储方式:InMemory、MySql、Cassandra、 Elasticsearch。
-
架构
- Zipkin 是C/S架构,一个是 Zipkin 服务端,一个是 Zipkin 客户端,客户端也就是微服务的应用。
- 客户端会配置服务端的 URL 地址,一旦发生服务间的调用的时候,会被配置在微服务里面的 Sleuth 的监听器监听,并生成相应的 Trace 和 Span 信息发送给服务端。
- 发送的方式主要有两种:HTTP 报文的方式、消息总线的方式如:RabbitMQ。
-
组件
-
Collector
收集器组件,它主要用于处理从外部系统发送过来的跟踪信息,将这些信息转换为 Zipkin 内部处理的 Span 格式,以支持后续的存储、分析、展示等功能。
-
Storage
存储组件,它主要对处理收集器接收到的跟踪信息,默认会将这些信息存储在内存中, 我们也可以修改此存储策略,通过使用其他存储组件将跟踪信息存储到数据库中。
-
RESTful API
API 组件,它主要用来提供外部访问接口。比如给客户端展示跟踪信息,或是外接 系统访问以实现监控等。
-
Web UI
UI 组件,基于 API 组件实现的上层应用。通过 UI 组件用户可以方便而有直观地查询和 分析跟踪信息。
-
【源码地址】:GitHub