18、架构-可观测性之聚合度量

最新推荐文章于 2024-08-23 15:54:50 发布

大树~~

最新推荐文章于 2024-08-23 15:54:50 发布

阅读量910

点赞数 25

分类专栏：架构文章标签： java python 后端架构

本文链接：https://blog.csdn.net/qq_29434541/article/details/139732755

版权

架构专栏收录该内容

28 篇文章 1 订阅

订阅专栏

聚合度量

聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。

指标收集

收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标收集的几个关键点：

应用级指标：通过代码埋点的方式收集应用级的指标数据，如请求数、请求处理时间、错误率等。例如，使用Micrometer框架可以方便地收集Spring Boot应用的各种指标数据：

import io.micrometer.core.instrument.MeterRegistry;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;

@Service
public class MetricsService {

    private final MeterRegistry meterRegistry;

    @Autowired
    public MetricsService(MeterRegistry meterRegistry) {
        this.meterRegistry = meterRegistry;
    }

    public void processRequest() {
        meterRegistry.counter("requests.total").increment();
        long startTime = System.currentTimeMillis();
        try {
            // 处理请求的逻辑
        } finally {
            long endTime = System.currentTimeMillis();
            meterRegistry.timer("requests.latency").record(endTime - startTime, TimeUnit.MILLISECONDS);
        }
    }
}

在上述代码中，通过MeterRegistry对象收集请求数和请求处理时间。每次处理请求时，都会记录请求的总数和处理时间。

系统级指标：通过系统工具或代理程序收集系统级的指标数据，如CPU使用率、内存使用率、磁盘IO、网络流量等。例如，使用Prometheus Node Exporter可以收集各种系统级的指标数据，并暴露给Prometheus进行拉取：
```
node_exporter --web.listen-address=":9100"
```
运行node_exporter后，可以通过http://localhost:9100/metrics访问系统指标数据，这些数据会被Prometheus定期拉取并存储。

自定义指标：除了常见的应用级和系统级指标，还可以根据具体需求定义和收集自定义的指标数据。例如，在电商系统中，可以收集每分钟的订单数、每秒的支付成功率等业务指标。以下是一个自定义业务指标的示例：

import io.micrometer.core.instrument.MeterRegistry;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;

@Service
public class BusinessMetricsService {

    private final MeterRegistry meterRegistry;

    @Autowired
    public BusinessMetricsService(MeterRegistry meterRegistry) {
        this.meterRegistry = meterRegistry;
    }

    public void recordOrder() {
        meterRegistry.counter("orders.count").increment();
    }

    public void recordPaymentSuccess() {
        meterRegistry.counter("payments.success").increment();
    }
}

在上述代码中，通过MeterRegistry对象收集订单数和支付成功率的业务指标。每次记录订单或支付成功时，都会更新相应的指标数据。

技术支撑和数据案例

在某大型互联网公司，使用Prometheus和Micrometer框架收集各种指标数据。通过在应用代码中埋点，收集请求数、请求处理时间、错误率等应用级指标；通过Prometheus Node Exporter收集CPU使用率、内存使用率等系统级指标。最终，这些数据被统一存储在Prometheus中，供后续分析和监控使用。

存储与查询

收集到的指标数据需要高效的存储和查询，以便后续进行分析和监控。以下是存储与查询的几个关键点：

时序数据库：指标数据通常是按时间顺序产生的，适合存储在时序数据库中。常用的时序数据库包括Prometheus、InfluxDB等。时序数据库具有高效的写入和查询性能，适合大规模指标数据的存储和查询。
- Prometheus：Prometheus是一个开源的时序数据库，专为监控和报警设计。它具有多维数据模型，支持强大的查询语言PromQL，能够高效地存储和查询指标数据。
- InfluxDB：InfluxDB是另一个流行的时序数据库，具有高效的存储和查询性能。它支持SQL-like的查询语言，适合复杂的查询和分析场景。
数据压缩和存储策略：由于指标数据量大且持续增长，需要采用数据压缩和合理的存储策略，以降低存储成本和提高查询效率。例如，可以配置Prometheus使用块存储和压缩算法，降低存储空间占用：
```
storage:
  tsdb:
    retention: 15d
    wal-compression: true
```
以上配置表示将Prometheus的存储保留时间设置为15天，并启用WAL（Write-Ahead Log）压缩，以减少存储空间占用。
高效查询：为了支持实时监控和分析，需要对指标数据进行高效的查询。例如，Prometheus支持多种查询方式和聚合函数，可以快速查询和聚合指标数据：
```
# 查询过去5分钟内的请求数
sum(rate(requests_total[5m]))
```
在上述PromQL查询中，使用sum和rate函数统计过去5分钟内的请求数，通过聚合查询快速获取关键指标数据。

技术支撑和数据案例

在某金融系统中，使用Prometheus作为时序数据库，存储各种指标数据。通过配置数据压缩和存储策略，降低存储成本和提高查询效率。最终，通过Prometheus的多种查询方式和聚合函数，实现对系统运行状态的实时监控和分析。

监控与预警

通过对聚合度量数据的监控和预警，可以及时发现系统中的异常和瓶颈，确保系统的稳定运行。以下是监控与预警的几个关键点：

可视化监控：使用可视化工具对指标数据进行展示，可以更直观地了解系统的运行状态。常用的可视化工具包括Grafana、Kibana等。例如，使用Grafana展示Prometheus的指标数据：
```
datasources:
  - name: Prometheus
    type: prometheus
    access: proxy
    url: http://localhost:9090
```
在上述Grafana配置中，通过Prometheus数据源获取指标数据，并通过Grafana的仪表盘进行展示，可以直观地监控系统运行状态。

预警规则：根据业务需求和系统运行状况，配置预警规则。当指标数据超过设定的阈值时，触发预警并通知相关人员。例如，在Prometheus Alertmanager中配置预警规则：

groups:
  - name: example
    rules:
    - alert: HighRequestLatency
      expr: requests_latency_seconds_count > 0.5
      for: 1m
      labels:
        severity: warning
      annotations:
        summary: "High request latency"
        description: "The request latency is above 0.5 seconds for more than 1 minute."

在上述预警规则中，当请求延迟超过0.5秒并持续1分钟时，会触发预警。

通知渠道：当预警触发时，需要通过多种渠道通知相关人员，以便及时处理问题。常用的通知渠道包括邮件、短信、Slack、微信等。例如，在Prometheus Alertmanager中配置邮件通知：
```
route:
  receiver: "email"
receivers:
  - name: "email"
    email_configs:
      - to: "ops@example.com"
        from: "alertmanager@example.com"
        smarthost: "smtp.example.com:587"
        auth_username: "alertmanager"
        auth_password: "password"
```
在上述配置中，当预警触发时，会通过邮件通知运维人员，确保问题能够及时处理。