前言
我曾经在我的OpenTelemetry系列文章中介绍了使用OpenTelemetry社区提供的一系列工具和来实现可观测性的能力。但是从实际的使用角度来说,每一个环节都不是简单的配置就能够放心在生产环境使用的。包括数据的大量产生后的并发处理,collector的多实例部署,数据的存储问题等等。这些都没法直接在OpenTelemetry社区找到现成的解决方案。对于使用的人来说需要的是一个完整的解决方案,而不是一个一个的开源项目。今天就在这里介绍一个开源的性能监控平台SigNoz。
SigNoz介绍
SigNoz是一个开源的性能监控工具,可以用来监控应用程序。SigNoz使用分布式跟踪获得可见性。
SigNoz在很多地方是基于OpenTelemetry体系的,他的collector是基于OpenTelemetry Collector的,他的客户端采样方式也是基于OpenTelemetry。
![](https://i-blog.csdnimg.cn/blog_migrate/9c4c049afc2daa660deac7313293c040.png)
从架构图我们可以看到SigNoz基于OpenTelemetry Collector研发了自己的collector,这个collector可以接收app的数据上报,也能接收OpenTelemetry Collector的二次分发。SigNoz的存储使用的ClickHouse,后端API和告警服务使用的Golang开发,前端则使用的是React。
SigNoz使用
为了体验SigNoz提供的能力,我们就先来本地进行一下安装。
本地安装
本地安装有多种方式,但是在此处建议使用docker来进行安装。安装前需要确保3301 4317 4318三个端口是可用的。首先,执行:
git clone -b main https://github.com/SigNoz/signoz.git && cd signoz/deploy/
复制代码
将signoz项目clone下来并进入deploy目录。
然后执行:
docker-compose -f docker/clickhouse-setup/docker-compose.yaml up -d
复制代码
安装完成后可以看到如下的一系列镜像:
![](https://i-blog.csdnimg.cn/blog_migrate/83136a33bec910e1f94cbeb21f0563cf.png)
访问http://localhost:3301/就能够看到页面,之后发起注册
![](https://i-blog.csdnimg.cn/blog_migrate/498321c4b35d7e78592d73db520b86e7.png)
完成登陆:
![](https://i-blog.csdnimg.cn/blog_migrate/10b3b159bce01842711215531b10f085.png)
使用
SigNoz体系已经搭建完成,现在我们就能够开始进行使用了。首先我们需要接入OpenTelemetry的SDK,这个在我的OpenTelemetry系列文章中有提到过,这里就不赘述了。大家可以选用自己的语言匹配的SDK。在此处我使用的是OpenTelemetry Java Instrumentation即Java Agent模式。
我在此使用了两个基于SpringBoot的测试应用:spring-provider和spring-receiver。这两个应用仅仅包含了普通的请求和OpenFeign请求。
![](https://i-blog.csdnimg.cn/blog_migrate/5caffb5e37cea55e724169d56b4370e6.png)
在Trace看板中,我们自定义筛选条件,自定义图标的选项来查看不同维度的Trace数据,在下方的列表页中选择一行点进去会跳转到Trace的详情页,在详情页中可以看到链路的具体调用信息,Span等维度的数据。
![](https://i-blog.csdnimg.cn/blog_migrate/93c46f9d4a1ebd78ac6861eb429b0dd3.png)
从Service中找到一个具体的服务进入其详情页就能看到一些Metrics的数据:
![](https://i-blog.csdnimg.cn/blog_migrate/e276d2c82789ba206dacc6bbfd59fda8.png)
在metrics的图表中会有99线,95线等维度。
在Logs中可以查看服务的日志信息,目前Logging维度在OpenTelemetry中还未完全的GA,配套的collector等都还在快速迭代中,因此SigNoz的这部分也还是在Beta中。
![](https://i-blog.csdnimg.cn/blog_migrate/48e5741b2029e7d1bdb0b5a1a8783f05.png)
在ServiceMap中可以看到服务的调用图谱
![](https://i-blog.csdnimg.cn/blog_migrate/ab9ef7512c8300ed57d9b1b8aa1c3ec6.png)
SigNoz也提供了告警的能力,在Alert面板中可以配置不同类型的告警
![](https://i-blog.csdnimg.cn/blog_migrate/b398dd8268f05d46fa9e40d07c183e77.png)
在这里配置一个Trace的告警需要有如下的三个步骤:
使用数据库查询语句定义度量指标
![](https://i-blog.csdnimg.cn/blog_migrate/f0fce360d4ef0986e38315fcd45b3c24.png)
2. 定义告警条件
![](https://i-blog.csdnimg.cn/blog_migrate/013faed5766f0e026feadda7c426b727.png)
3. 其他告警配置
![](https://i-blog.csdnimg.cn/blog_migrate/627a78fec934f9f1dfe104d3741701ef.png)
配置完毕后保存就能够看到配置的告警了。
![](https://i-blog.csdnimg.cn/blog_migrate/5c59860b5cd6f3145a440d4829e54b84.png)
总结
总的来说相比自己搭建OpenTelemetry的整个采集体系,然后分别用jaeger来查看trace,用prometheus来查询metrics,SigNoz整合了Trace,Metrics,Logging等的一些列的聚合,展示与管理。他是一个可观测体系平台的集合,有着丰富的能力。在本片中介绍到的仅仅是他的能力的一部分,有兴趣的朋友可以自己去本地装一下体验一下。
作者:骑牛上青山