Elasticsearch-search.max_buckets参数

赵师的工作日

已于 2024-05-29 11:30:08 修改

阅读量1k

点赞数 3

文章标签： elasticsearch 大数据

于 2023-12-12 09:00:18 首次发布

本文链接：https://blog.csdn.net/mzzhao23/article/details/134930263

版权

文章讲述了Elasticsearch中的search.max_buckets参数的作用，它限制单个响应中的桶数。通过实例分析，当数据量大时，可能需要调整此参数以保证聚合结果完整，但需注意可能引发的性能问题。

摘要由CSDN通过智能技术生成

概念

search.max_buckets：

The search.max_buckets cluster setting limits the number of buckets allowed in a single response.

集群设置限制了单个响应中允许的存储桶数。
先抛开该参数不说，在Elasticsearch中，桶，就是指定聚合的分组。
例如下面的数据：
在这里插入图片描述
假设以id聚合，就是5个桶；以name聚合就是3个桶；以age聚合就是4个桶。
现在就可以非常直观的理解search.max_buckets：最大能有几个桶。

验证

在这里插入图片描述

dtk_googs_info_daliy有1000多万数据，指定用goodsid字段聚合，同时指定桶为1。
可以看到，结果中只返回了一条数据，即一个桶，以及该桶里的数据量。
转为大家熟悉的SQL就是：

select goodsid,count(1) from dtk_googs_info_daliy group by goodsid limit 1

大家应该还会注意到，在返回结果中还有两个值
doc_count_error_upper_bound：表示没有在这次聚合中返回，但是可能存在的潜在聚合结果。简单的说，该值不为0证明聚合结果大概率是不准确的。
sum_other_doc_count：表示这次聚合中没有统计到的文档数。简单的说，就是没有参与本次聚合的文档数。

其实可以计算一下，doc_count=104，sum_other_doc_count=16326859。那么该索引总数应该是104+16326859=16326963

在这里插入图片描述

如果要查询所有分组的数据

GET dtk_goods_info_daily/_search
{
  "size": 0,
  "aggs": {
    "goods_id": {
      "terms": {
        "field": "goodsid",
        "size": 1000000          #该值>=count(distinct(goodsid))
      }
    }
  }
}