翻译文档-elasticsearch-7.13.*-search-aggregations

https://www.elastic.co/guide/en/elasticsearch/reference/7.13/search-aggregations.html
aggregation将统计数据的metrics、statistics或其他纬度。aggregation帮助您回答以下问题:
* 我的网站的平均加载时间是什么?
* 基于交易量,谁是我最有价值的客户?
* 在我的网络中,什么会被认为是一个大文件?
* 每个产品类别有多少产品?

Elasticsearch提供的聚合操作分为三个类别:
* Metric aggregation:总和、平均值
* Bucket aggregation: 也称为垃圾箱,根据field的值、分数或其他条件,将document 分到不同的桶
* pipeline aggretation:输入来自其他聚合,而不是field或document。

执行一个聚合操作:
聚合参数在查询api的aggs中定义,以下搜索条件执行一个terms aggregation 在字段my-field上。

curl -X GET "localhost:9200/my-index-000001/_search?pretty" -H 'Content-Type: application/json' -d'
{
  "aggs": {
    "my-agg-name": {
      "terms": {
        "field": "my-field"
      }
    }
  }
}
'

返回结果:

{
  "took": 78,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 5,
      "relation": "eq"
    },
    "max_score": 1.0,
    "hits": [...]
  },
  "aggregations": {                                (1)
    "my-agg-name": {                           
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 0,
      "buckets": []
    }
  }
}

(1):my-agg-name的结果

改变聚合的数据范围:
使用查询参数限制一个聚合的document范围:

curl -X GET "localhost:9200/my-index-000001/_search?pretty" -H 'Content-Type: application/json' -d'
{
  "query": {
    "range": {
      "@timestamp": {
        "gte": "now-1d/d",
        "lt": "now/d"
      }
    }
  },
  "aggs": {
    "my-agg-name": {
      "terms": {
        "field": "my-field"
      }
    }
  }
}
'

只返回聚合结果:
默认情况下,搜索结果 包含 搜索结果 和 聚合结果。只返回聚合结果,设置大小为0:

curl -X GET "localhost:9200/my-index-000001/_search?pretty" -H 'Content-Type: application/json' -d'
{
  "size": 0,
  "aggs": {
    "my-agg-name": {
      "terms": {
        "field": "my-field"
      }
    }
  }
}
'

执行多个聚合操作:
您可以指定多个聚合在同一个请求:

curl -X GET "localhost:9200/my-index-000001/_search?pretty" -H 'Content-Type: application/json' -d'
{
  "aggs": {
    "my-first-agg-name": {
      "terms": {
        "field": "my-field"
      }
    },
    "my-second-agg-name": {
      "avg": {
        "field": "my-other-field"
      }
    }
  }
}
'

运行sub-aggregations:
bucket aggregation支持bucket或metric sub-aggregations。例如,一个terms aggregation 带有一个 avg sub-aggregation,用于计算每个桶中document的平均值。子聚合没有水平或嵌套深度的限制。

curl -X GET "localhost:9200/my-index-000001/_search?pretty" -H 'Content-Type: application/json' -d'
{
  "aggs": {
    "my-agg-name": {
      "terms": {
        "field": "my-field"
      },
      "aggs": {
        "my-sub-agg-name": {
          "avg": {
            "field": "my-other-field"
          }
        }
      }
    }
  }
}
'

以上,桶聚合支持 对每个桶再进行分桶、对每个桶进行度量统计;也说明进行过度量统计后,不能再使用子聚合。
sub-aggregation的结果在父聚合中

{
  ...
  "aggregations": {
    "my-agg-name": {                          (1)                   
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 0,
      "buckets": [
        {
          "key": "foo",
          "doc_count": 5,
          "my-sub-agg-name": {                (2)                 
            "value": 75.0
          }
        }
      ]
    }
  }
}

(1):聚合的结果my-agg-name
(2):对my-agg-name进行子聚合的结果my-sub-agg-nam
添加自定义元数据:
在一个聚合中,利用meta对象添加自定义元素

curl -X GET "localhost:9200/my-index-000001/_search?pretty" -H 'Content-Type: application/json' -d'
{
  "aggs": {
    "my-agg-name": {
      "terms": {
        "field": "my-field"
      },
      "meta": {
        "my-metadata-field": "foo"
      }
    }
  }
}
'

meta对象在返回结果中的位置:

{
  ...
  "aggregations": {
    "my-agg-name": {
      "meta": {
        "my-metadata-field": "foo"
      },
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 0,
      "buckets": []
    }
  }
}

返回聚合类型:
默认情况,聚合结果包含聚合的名称,不包含聚合的类型。使用type_keys查询参数可以返回聚合类型。

curl -X GET "localhost:9200/my-index-000001/_search?typed_keys&pretty" -H 'Content-Type: application/json' -d'
{
  "aggs": {
    "my-agg-name": {
      "histogram": {
        "field": "my-field",
        "interval": 1000
      }
    }
  }
}
'

typed_keys在url请求中,返回结果中,聚合类型作为聚合名称的前缀,中间通过#号分隔。

{
  ...
  "aggregations": {
    "histogram#my-agg-name": {                 
      "buckets": []
    }
  }
}

ps:一些聚合操作根据不同的请求返回不同的聚合类型。
例如terms、significant terms、percentiles 根据聚合字段的不同类型返回不同的聚合类型。

在聚合操作中使用脚本:
当一个field不满足需要的聚合操作时,可以使用runtime field 作为聚合字段。

curl -X GET "localhost:9200/my-index-000001/_search?size=0&pretty" -H 'Content-Type: application/json' -d'
{
  "runtime_mappings": {
    "message.length": {
      "type": "long",
      "script": "emit(doc[\u0027message.keyword\u0027].value.length())"
    }
  },
  "aggs": {
    "message_length": {
      "histogram": {
        "interval": 10,
        "field": "message.length"
      }
    }
  }
}
'

脚本动态地计算字段值,需要增加一点开销。
一些聚合像terms 、filters,在使用runtime fields时不能被优化,需要花费计算时间。
In total, performance costs for using a runtime field varies from aggregation to aggregation【其他,总的来说,使用一个runtime field性能成本与聚合后再聚合不同。】

聚合缓存:

为了更快的响应,Elasticsearch 在 shard-request-cache上 缓存 经常执行的聚合结果。
To get cached results, use the same preference string for each search.
If you don’t need search hits, set size to 0 to avoid filling the cache.【如果不需要使用聚合缓存,设置size = 0 去避免用缓存填充结果】

Elasticsearch routes searches with the same preference string to the same shards. If the shards’ data doesn’t change between searches, the shards return cached aggregation results.

长度限制
当执行聚合时,Elasticsearch使用double来保存和表示数字。因此,聚合结果的长度大于2^53.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值