elasticsearch的聚合技术全面解析

最新推荐文章于 2024-08-13 07:03:26 发布

lzyever

最新推荐文章于 2024-08-13 07:03:26 发布

阅读量601

点赞数 29

分类专栏： elasticsearch 文章标签： elasticsearch

本文链接：https://blog.csdn.net/lzyever/article/details/137893602

版权

elasticsearch 专栏收录该内容

17 篇文章 1 订阅

订阅专栏

本文详细介绍了Elasticsearch中的聚合功能，包括Bucket聚合（如Terms、Histogram等）、Metric聚合（如Count、Sum等）和Pipeline聚合的使用。同时涵盖了聚合结构、性能优化策略以及如何通过Kibana进行可视化。

摘要由CSDN通过智能技术生成

一、聚合基础

聚合 (Aggregation)*是一种在 Elasticsearch 中对数据进行分组、统计、计算和分析的操作。它与搜索请求一起执行，但关注的是数据的汇总而非具体的文档列表。聚合结果通常以层次化的结构返回，便于进一步处理和可视化。

二、聚合类型

1. Bucket 聚合 (Bucket Aggregations)

Bucket 聚合用于对数据进行分桶（grouping），将数据集划分为多个逻辑桶，每个桶代表一类数据。常见的 Bucket 聚合包括：

Terms 聚合：按某个字段的值进行分桶，统计每个值出现的次数（文档计数）。
Histogram 聚合：基于数值字段的区间（bucket）进行分桶，常用于时间序列分析。
Range 聚合：按指定数值范围进行分桶。
Date Range 聚合：特别针对日期字段，按日期范围进行分桶。
Filter 聚合：根据布尔查询筛选数据，形成单独的桶。
Geo Distance 聚合：基于地理距离进行分桶，常用于地理空间数据分析。
Nested 聚合：处理嵌套文档，允许在嵌套对象上进行分桶操作。
IP Range 聚合：对 IP 地址字段按 IP 范围进行分桶。

2. Metric 聚合 (Metric Aggregations)

Metric 聚合用于计算单个数值指标，如平均值、总和、最大值、最小值等。常见的 Metric 聚合包括：

Count 聚合：计算匹配查询的文档总数。
Sum 聚合：计算数值字段的总和。
Average 聚合：计算数值字段的平均值。
Min/Max 聚合：分别计算数值字段的最小值和最大值。
Stats 聚合：提供数值字段的统计信息，包括计数、总和、平均值、最小值、最大值。
Extended Stats 聚合：提供更详细的统计信息，如方差、标准差、四分位数等。
Percentiles 聚合：计算数值字段指定百分位数的值。
Cardinality 聚合：估算唯一值的数量，适用于高基数字段。

3. Pipeline 聚合 (Pipeline Aggregations)

Pipeline 聚合对其他聚合的结果进行二次处理，实现更复杂的聚合逻辑。它们不直接操作原始文档，而是消费其他聚合产生的桶或指标。常见的 Pipeline 聚合包括：

Bucket Script 聚合：对 Bucket 聚合的每个桶应用脚本，生成新的聚合值。
Sum Bucket 聚合：对多个 Bucket 聚合的子桶求和。
Avg Bucket 聚合：对多个 Bucket 聚合的子桶求平均值。
Max/Min Bucket 聚合：找出多个 Bucket 聚合中子桶的最大/最小值。
Derivative 聚合：计算相邻桶之间某个 Metric 聚合值的变化率。
Cumulative Sum 聚合：对一系列 Metric 聚合值累计求和。
Moving Average 聚合：计算滑动窗口内的平均值。

三、聚合结构

聚合结果通常以树状结构返回，每个聚合可以嵌套其他聚合，形成多层次的聚合链。这种结构允许用户逐步细化分析，从宏观到微观逐步揭示数据特征。

四、聚合操作

聚合操作通常与搜索请求结合使用，通过在查询 DSL 中定义聚合部分实现。聚合请求可以独立于搜索结果，也可以与搜索结果关联，展示在搜索结果的上下文中。

五、聚合使用示例

以下是一个简单的聚合请求示例，展示了 Terms 聚合和 Avg 聚合的组合使用：

GET /my_index/_search
{
  "size": 0, // 不返回匹配文档，仅聚合结果
  "aggs": {
    "by_category": { // Bucket 聚合：按 category 字段分桶
      "terms": {
        "field": "category"
      },
      "aggs": { // 在每个 bucket 内进一步聚合
        "avg_price": { // Metric 聚合：计算每个 category 的平均 price
          "avg": {
            "field": "price"
          }
        }
      }
    }
  }
}