随着目前系统架构的复杂度越来越高(中台、微服务),并且线上应用的多级监控覆盖到了通讯、应用处理过程监控并且实现端到端的应用监测,线上性能故障的快速定位修复;而传统的监控分析方式已经无法满足我们的需求,因此许多强大的APM工具应运而生(SkyWalking、Pinpoint、Cat、Zipkin)。性能测试也面临同样问题,目前越来越多的端到端的压测,单体压测已经比较成熟不管从实施到监控分析,全链路的压测分析比较困难,特别是链路中瓶颈点的定位。我们今天就聊一下全链路的追踪工具之一SkyWalking,它是一款优秀的国产 APM 工具,包括了分布式追踪、性能指标分析、应用和服务依赖分析等。
1、全链路追踪的三种场景
1)、Metrics 指标性统计
基于聚合信息,实现监控和告警。比如说我们会去做一个服务的 TBS 的正确率、成功率、流量等,这是我们常见的针对单个指标或者某一个数据库的,这就是 Metrics 单指标分析。
2)、Tracing 分布式追踪
采集并保留服务调用相关信息,帮助我们更好的理解系统的行为、辅助调试和排查性能问题。这里提到的是一次请求的范围,比如说一次订购的过程,从浏览商品到最后下订单、支付、物流、最后交到我们的手上。这是一个流程化的东西,我们需要轨迹,需要去追踪。
3)、 Logging 日志记录
记录标准格式日志信息,输出到文件,基于日志文件进行聚合和分析。优点:信息全面;缺点:资源开销大,难以展示完整链路