在上一篇博客中,我谈到了如何用OpenTelemetry收集遥测数据,基于使用特定语言的API。这包括手工探测和自动探测。这很好!......但收集遥测数据只是解决方案的一部分。你需要把这些遥测数据传送到某个地方,并给它添加一些元数据。这就是SDK开始发挥作用的地方。
追踪器提供者(Tracer provider)
SDK中关键部分就是追踪器提供者。追踪器负责将从API中得到的遥测数据与剩下的环节进行打通。在Go语言中,TracerProvider
是只有一个Tracer
方法的接口,签名如下:
Tracer(instrumentationName string, opts ...TracerOption) Tracer
Tracer
方法返回一个只支持实现Tracer
接口的对象,Tracer
接口有一个Start
方法,我们已经使用它进行探测:
Start(ctx context.Context, spanName string, opts ...SpanStartOption) (context.Context, Span)
这是我们在调用创建跨度时使用的跟踪器提供程序:
import "go.opentelemetry.io/otel"
// ...
ctx, span := otel.Tracer(telemetry.TelemetryLibrary).Start(ctx, "get_product_price")
otel.Tracer
查找全局跟踪器提供程序以启动 Tracer
。正如您所看到的,是跟踪器提供程序为我们提供了这种连接。但是,在使用跟踪器提供程序之前,您需要先设置它。
注: 我在上面和之前的博文中提到了 "全局 "追踪器提供者的想法。利用全局追踪器提供者是一个更容易处理的方法,因为当我们调用otel.Tracer
时,API会对全局追踪器提供者进行查找。不过,如果这不能满足你的要求,你可以自由地将追踪器提供者传递给消费者,这样就可以直接引用它,而不是全局查询。
资源(Resource)
追踪器提供商处理的其中一些元数据是资源。这是对产生遥测数据的进程或服务的描述。可以把它看作是描述服务本身的元数据。下面是我为购物车服务创建的资源对象:
import (
"go.opentelemetry.io/otel/sdk/resource"
semconv "go.opentelemetry.io/otel/semconv/v1.4.0"
)
// ...
res, err := resource.New(
ctx,
resource.WithAttributes(
semconv.ServiceNameKey.String("cart"),
semconv.ServiceVersionKey.String("v1.0.0"),
),
)
服务资源的关键部分之一是被添加的属性。OpenTelemetry为资源属性键和值定义了一套标准,你可以在OTel的资源语义约定文档[1]中找到它们。例如,你通常希望至少定义服务名称和版本信息,正如你在那个例子中看到的那样。但是,您可以指定的内容还有很多,这取决于资源本身。它是否在云中运行?语义惯例为不同的云提供商定义了不同的属性。在Kubernetes中运行?有SemConv指南涵盖Kubernetes中的资源[2]。
对于我的服务,跨度中将会有以下资源数据:
Resource labels: -> service.name: STRING(cart) -> service.version: STRING(v1.0.0)
导出器(Exporter)
现在我们已经创建了资源对象,我们需要为遥测数据定义一个目的地。目的的可以是大量导出器,但在我的例子中,我将使用 OpenTelemetry Collector(在下一篇博文中详细介绍),并且它可以具有 HTTP 或 gRPC 连接。我选择使用 gRPC 并设置连接和 OTLP 导出器:
import (
"go.opentelemetry.io/otel/exporters/otlp/otlptrace/otlptracegrpc"
"google.golang.org/grpc"
)
// ...
hostIP := os.Getenv("HOST_IP")
if hostIP == "" {
return nil, fmt.Errorf("unexpected no host IP address for receiver")
}
receiverAddress := fmt.Sprintf("%s:%d", hostIP, 4317)
conn, err := grpc.DialContext(
ctx,
receiverAddress,
grpc.WithTransportCredentials(insecure.NewCredentials()),
grpc.WithBlock(),
)
if err != nil {
return nil, fmt.Errorf("error creating client connection to collector: %w", err)
}
otlpTraceExporter, err := otlptracegrpc.New(
ctx,
otlptracegrpc.WithGRPCConn(conn),
)
_Note: 在我的例子中,因为这是一个演示应用程序,我使用的是与收集器的不安全连接,但在生产中你应该使用具有正确的身份认证的连接
关于导出器,有很多种类可供你使用,例如:控制台输出(从stdout查看),Jaeger(直接向那里发送数据),Prometheus,还有其他的。使用OTLP输出器并将数据发送到OTel收集器的好处是,你可以分叉数据,处理它,并有更多的控制权(我们将在下一篇文章中看到)。由于这种灵活性,这个例子将只使用OTLP输出器,我们可以在采集器中随意处理遥测数据(输出到stdout,发送至Jaeger等)。在下一篇文章中会有更多这方面的内容!
集成所有内容
现在我们有了资源(产生遥测数据的东西)和输出者(遥测数据的去处),我们通过追踪器提供者把它们放在一起:
tp := trace.NewTracerProvider(
trace.WithSampler(trace.AlwaysSample()),
trace.WithResource(res),
trace.WithSpanProcessor(trace.NewBatchSpanProcessor(otlpTraceExporter)),
)
当追踪器提供者被创建时,我们需要将其设置为全局追踪器提供者:
import (
"go.opentelemetry.io/otel"
)
// ...
otel.SetTracerProvider(tp)
接下来我们需要设置传播(propagation)。在后续博文中,我将深入讨论传播和baggage,但现在只需要知道传播是我们跨多个服务和进程中使用 OTel 跟踪的方式。这就是将“分布式”置于“分布式追踪”中的原因。
import (
"go.opentelemetry.io/otel/propagation"
)
// ...
otel.SetTextMapPropagator(
propagation.NewCompositeTextMapPropagator(
propagation.TraceContext{},
propagation.Baggage{}),
)
最后,我们需要调用 TracerProvider.Shutdown
来清理和关闭跨度处理器(在我们的例子中,我们使用的是批处理跨度处理器,它把已完成的跨度发送给导出器):
defer func() {
if err := tp.Shutdown(context.Background()); err != nil {
fmt.Printf("Error shutting down tracer provider: %v", err)
os.Exit(1)
}
}()
注: 我们不只是运行 defer tp.Shutdown(context.Background()) ,因为我们还需要进行错误处理。
Python追踪器提供者(Python tracer provider)
本案例中大部分服务使用Go编写,但是使用Python写了一个服务(价格服务)。为了完整性,以下代码是使用Python创建一个类似的追踪器提供者:
from opentelemetry import trace
from opentelemetry.exporter.otlp.proto.grpc.trace_exporter import OTLPSpanExporter
from opentelemetry.sdk.resources import Resource, SERVICE_NAME, SERVICE_VERSION
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.export import BatchSpanProcessor
resource = Resource(attributes={
SERVICE_NAME: "price",
SERVICE_VERSION: "v1.0.0"
})
tracer_provider = TracerProvider(resource=resource)
host_ip = os.environ.get("HOST_IP")
if host_ip is None:
print("Must pass in environment var HOST_IP")
sys.exit(1)
tracer_provider.add_span_processor(span_processor=BatchSpanProcessor(
OTLPSpanExporter(endpoint=f"{host_ip}:4317", insecure=True)
))
trace.set_tracer_provider(tracer_provider)
以上的资源、跨度处理器以及设置全局追踪器提供者的实现都与Go语言的类似。
总结
这很棒!现在我们已经获取了 API 生成的遥测数据,并将其从被观测进程传送到导出器,并向其添加了一些元数据(资源)!接下来,我们将了解如何使用 OpenTelemetry Collector 处理这些数据。
引用链接
[1]
OTel的资源语义约定文档: https://opentelemetry.io/docs/reference/specification/resource/semantic_conventions/[2]
涵盖Kubernetes中的资源: https://opentelemetry.io/docs/reference/specification/resource/semantic_conventions/k8s/
基于OpenTelemetry实现可观测性