ES聚合查询

最新推荐文章于 2024-04-16 10:51:16 发布

xx小王xx

最新推荐文章于 2024-04-16 10:51:16 发布

阅读量1.3k

点赞数 18

文章标签： python 算法机器学习 1024程序员节

本文链接：https://blog.csdn.net/weixin_38871825/article/details/134001875

版权

1.ES聚合查询流程

ES的聚合查询类似于SQL的GROUP BY，一般查询过程分为两个步骤：

分组
组内聚合

分组：对查询的数据首先进行一轮分组，可以设置分组条件，例如：新生入学，把所有的学生按专业分班，这个分班的过程就是对学生进行了分组。

组内聚合：即对组内的数据进行统计，例如：计算总数、求平均值等等，接上面的例子，学生都按专业分班了，那么就可以统计每个班的学生总数，这个统计每个班学生总数的计算，就是组内聚合计算。

2.相关概念

1）桶：满足特定条件的文档的集合，ES使用桶代表一组相同特征的数据。对数据分组后，得到一组组的数据，就是一个个的桶。

2）指标：对文档进行统计计算方式，又叫指标聚合。桶内聚合，即先对数据进行分组（分桶），然后对每一个桶内的数据进行指标聚合。常用指标有COUNT、SUM、AVG、MAX、MIN。

3.ES聚合查询语法

{
  "aggregations" : {
    "<aggregation_name>" : {
        "<aggregation_type>" : {
            <aggregation_body>
        }
        [,"aggregations" : { [<sub_aggregation>]+ } ]? // 嵌套聚合查询，支持多层嵌套
    }
    [,"<aggregation_name_2>" : { ... } ]* // 多个聚合查询，每个聚合查询取不同的名字
  }
}

aggregations - 代表聚合查询语句，可以简写为aggs

<aggregation_name> - 代表一个聚合计算的名字，可以随意命名，因为ES支持一次进行多次统计分析查询，后面需要通过这个名字在查询结果中找到我们想要的计算结果。

<aggregation_type> - 聚合类型，代表我们想要怎么统计数据，主要有两大类聚合类型，桶聚合和指标聚合，这两类聚合又包括多种聚合类型，例如：指标聚合：sum、avg，桶聚合：terms、Date histogram等等。

<aggregation_body> - 聚合类型的参数，选择不同的聚合类型，有不同的参数。

aggregation_name_2 - 代表其他聚合计算的名字，意思就是可以一次进行多种类型的统计。

指标聚合：

ES指标聚合，就是类似SQL的统计函数，指标聚合可以单独使用，也可以跟桶聚合一起使用。

Value Count - 类似sql的count函数，统计总数

Cardinality - 类似SQL的count(DISTINCT 字段)，统计不重复的数据总数

Avg - 求平均值

Sum - 求和

Max - 求最大值
Min - 求最小值
Percentiles - 用于百分位统计

GET /sales/_search?size=0
{
  "aggs": {
    "types_count": { // 聚合查询的名字
      "value_count": { // 聚合类型为：value_count
        "field": "type" // 计算type这个字段值的总数
      }
    }
  }
}

POST /sales/_search?size=0
{
    "aggs" : {
        "type_count" : { // 聚合查询的名字，随便取一个
            "cardinality" : { // 聚合查询类型为：cardinality，统计不重复数据总数
                "field" : "type" // 根据type这个字段统计文档总数
            }
        }
    }
}

GET latency/_search
{
  "size": 0,
  "aggs" : {
    "load_time_outlier" : {
      "percentiles" : {
        "field" : "load_time" //按照字段数值排序，统计各百分比内的数据量
      }
    }
  }
}

2）分桶聚合：Elasticsearch桶聚合，目的就是数据分组，先将数据按指定的条件分成多个组，然后对每一个组进行统计。

ES桶聚合的作用跟SQL的group by的作用是一样的，区别是ES支持更加强大的数据分组能力，SQL只能根据字段的唯一值进行分组，分组的数量跟字段的唯一值的数量相等， ES常用的桶聚合如下：

Terms聚合 - 类似SQL的group by，根据字段唯一值分组

Histogram聚合 - 根据数值间隔分组，例如:按100间隔分组，0、100、200、300等等

Date histogram聚合 - 根据时间间隔分组，例如：按月、按天、按小时分组

Range聚合 - 按数值范围分组，例如: 0-150一组，150-200一组，200-500一组。

桶聚合一般不单独使用，都是配合指标聚合一起使用，对数据分组之后肯定要统计桶内数据，在ES中如果没有明确指定指标聚合，默认使用Value Count指标聚合，统计桶内文档总数。

terms聚合：根据字段值项分组聚合

GET /order/_search
{
    "size" : 0,  // 设置size=0的意思就是，仅返回聚合查询结果
    "aggs" : {  // 聚合查询语句的简写
        "popular_colors" : {  // 给聚合查询取的名字
              "terms" : {  // 聚合类型为，terms，根据字段分组，              
                    "field" : "color" //聚合类型的参数，需要设置分组的段   
                     }
          }
      }
}

Histogram聚合：主要根据数值间隔分组，使用histogram聚合分桶统计结果，通常用在绘制条形图报表。

POST /sales/_search?size=0
{
    "aggs" : {
        "prices" : { // 聚合查询名字
            "histogram" : { // 聚合类型为：histogram
                "field" : "price", // 根据price字段分桶
                "interval" : 50 // 分桶的间隔为50，意思就是price字段值按50间隔分组
            }
        }
    }
}

Date histogram聚合：类似histogram聚合，区别是Date histogram可以很好的处理时间类型字段，主要用于根据时间、日期分桶的场景。

POST /sales/_search?size=0
{
    "aggs" : {
        "sales_over_time" : { // 聚合查询名字
            "date_histogram" : { // 聚合类型为: date_histogram
                "field" : "date", // 根据date字段分组
                "calendar_interval" : "month", // 分组间隔：month代表每月、支持minute（每分钟）、hour（每小时）、day（每天）、week（每周）、year（每年）
                "format" : "yyyy-MM-dd" // 设置返回结果中桶key的时间格式
            }
        }
    }
}

Range聚合：按数值范围分桶。

GET /_search
{
    "aggs" : {
        "price_ranges" : { // 聚合查询名字
            "range" : { // 聚合类型为： range
                "field" : "price", // 根据price字段分桶
                "ranges" : [ // 范围配置
                    { "to" : 100.0 }, // 意思就是 price <= 100的文档归类到一个桶
                    { "from" : 100.0, "to" : 200.0 },100-200的文档归类到一个桶
                    { "from" : 200.0 } // price>200的文档归类到一个桶
                ]
            }
        }
    }
}

Filter聚合：过滤器聚合，可以把符合过滤器条件的文档分到一个组中，即单分组聚合。

{
  "aggs": {
    "age_terms": {
      "filter": {"match":{"gender":"F"}},
      "aggs": {
        "avg_age": {
          "avg": {
            "field": "age"
          }
        }
      }
    }
  }
}

Filters聚合：多过滤器聚合，可以把符合多个过滤条件的文档分到不同的桶中，即每个桶关联一个过滤条件，并收集符合自身过滤条件的文档。

{
  "size": 0,
  "aggs": {
    "messages": {
      "filters": {
        "filters": {
          "errors": { "match": { "body": "error" } },
          "warnings": { "match": { "body": "warning" } }
        }
      }
    }
  }
}

先搜索目标文档，然后使用aggs聚合语句对搜索结果进行统计分析。

GET /cars/_search
{
    "size": 0, // size=0代表不需要返回query查询结果，仅仅返回aggs统计结果
    "query" : { // 设置查询语句，先筛选文档
        "match" : {
            "make" : "ford"
        }
    },
    "aggs" : { // 然后对query搜索的结果，进行统计
        "colors" : { // 聚合查询名字
            "terms" : { // 聚合类型为：terms 先分桶
              "field" : "color"
            },
            "aggs": { // 通过嵌套聚合查询，设置桶内指标聚合条件
              "avg_price": { // 聚合查询名字
                "avg": { // 聚合类型为: avg指标聚合
                  "field": "price" // 根据price字段计算平均值
                }
              },
              "sum_price": { // 聚合查询名字
                "sum": { // 聚合类型为: sum指标聚合
                  "field": "price" // 根据price字段求和
                }
              }
            }
        }
    }
}

4.聚合后排序

1）内置排序

_count - 按文档数排序。对 terms 、 histogram 、 date_histogram 有效

_term - 按词项的字符串值的字母顺序排序。只在 terms 内使用

_key - 按每个桶的键值数值排序, 仅对 histogram 和 date_histogram 有效

GET /cars/_search
{
    "size" : 0,
    "aggs" : {
        "colors" : { // 聚合查询名字
            "terms" : { // 聚合类型为: terms
              "field" : "color",
              “size” : 5  //限制返回5个桶
              "order": { // 设置排序参数
              "_count" : "asc"  // 根据_count排序，asc升序，desc降序
              }
            }
        }
    }
}

按度量排序：通常情况下，我们根据桶聚合分桶后，都会对桶内进行多个维度的指标聚合，所以我们也可以根据桶内指标聚合的结果进行排序。

GET /cars/_search
{
    "size" : 0,
    "aggs" : {
        "colors" : { // 聚合查询名字
            "terms" : { // 聚合类型: terms，先分桶
              "field" : "color", // 分桶字段为color
              "order": { // 设置排序参数
                "avg_price" : "asc"  // 根据avg_price指标聚合结果，升序排序。
              }
            },
            "aggs": { // 嵌套聚合查询，设置桶内聚合指标
                "avg_price": { // 聚合查询名字，前面排序引用的就是这个名字
                    "avg": {"field": "price"} // 计算price字段平均值
                }
            }
        }
    }
}

5.管道聚合

1）最大值桶max_bucket

同级管道聚合，获取所有桶中的sum合计指标的最大值

POST /_search
{
  "aggs": {
    "sales_per_month": {
      "date_histogram": {
        "field": "date",
        "calendar_interval": "month"
      },
      "aggs": {
        "sales": {
          "sum": {
            "field": "price"
          }
        }
      }
    },
    "max_monthly_sales": {
      "max_bucket": {
        "buckets_path": "sales_per_month>sales"
      }
    }
  }
}

2）桶排序 bucket_sort

父管道聚合，对其父多桶聚合的桶进行排序。可以将零个或多个排序字段与相应的排序顺序一起指定。每个 bucket 可以根据其_key、_count 或其子聚合进行排序。

此外，可以设置from和size的参数，以截断结果存储桶。

POST /sales/_search
{
  "size": 0,
  "aggs": {
    "sales_per_month": {
      "date_histogram": {
        "field": "date",
        "calendar_interval": "month"
      },
      "aggs": {
        "total_sales": {
          "sum": {
            "field": "price"
          }
        },
        "sales_bucket_sort": {
          "bucket_sort": {
            "sort": [
              { "total_sales": { "order": "desc" } }
            ],
            "size": 3                                
          }
        }
      }
    }
  }
}

xx小王xx

关注

18
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
ES聚合查询

aggregation_type> - 聚合类型，代表我们想要怎么统计数据，主要有两大类聚合类型，桶聚合和指标聚合，这两类聚合又包括多种聚合类型，例如：指标聚合：sum、avg。：即对组内的数据进行统计，例如：计算总数、求平均值等等，接上面的例子，学生都按专业分班了，那么就可以统计每个班的学生总数，这个统计每个班学生总数的计算，就是组内聚合计算。：对查询的数据首先进行一轮分组，可以设置分组条件，例如：新生入学，把所有的学生按专业分班，这个分班的过程就是对学生进行了分组。_count - 按文档数排序。
复制链接

扫一扫