ElasticSearch 聚合筛选，类似SQL里面的having

五只鸭子

已于 2022-05-28 17:43:09 修改

阅读量1.7w

点赞数 12

分类专栏：数据库 ElasticSearch 大数据文章标签： ElasticSearch ElasticSearch having ElasticSearch 聚合筛选

于 2018-07-11 16:17:03 首次发布

本文链接：https://blog.csdn.net/tuposky/article/details/81002526

版权

大数据同时被 3 个专栏收录

14 篇文章 4 订阅

订阅专栏

数据库

6 篇文章 0 订阅

订阅专栏

ElasticSearch

3 篇文章 1 订阅

订阅专栏

ElasticSearch 聚合筛选，类似SQL里面的having

特别说明：文章所有内容基于ElasticSerch 5.5.3版本

背景

我们在实际业务场景中会遇到聚合筛选的需求，需要先分组然后聚合，再通过聚合的结果进行筛选，关系型数据库中有having或者子查询来实现，ES中key使用 bucket_selector 来实现此功能

实际业务场景

需要找出下单次数大于等于2单，并且平均下单金额大于等于100的客户
数据基于之前一篇博客里面的数据：https://blog.csdn.net/tuposky/article/details/80988915

在关系型数据库中对应的SQL语句

SELECT 
	userId,
	AVG(amount) avgAmount,
	count(*) orderCount
FROM type_order
GROUP by userId
HAVING avgAmount >= 100 and orderCount >=2

ES 的 query

GET index_test/type_order/_search
{
  "size": 0,
  "aggs": {
    "groupUserId": {
      "terms": {
        "field": "userId"
      },
      "aggs": {
        "avgAmount": {
          "avg": {
            "field": "amount"
          }
        },
        "having": {
          "bucket_selector": {
            "buckets_path": {
              "orderCount": "_count",
              "avgAmount": "avgAmount"
            },
            "script": {
              "source": "params.avgAmount >= 100 && params.orderCount >=2 "
            }
          }
        }
      }
    }
  }
}

返回结果

{
  "took": 16,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 4,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "groupUserId": {
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 0,
      "buckets": [
        {
          "key": 1000,
          "doc_count": 2,
          "avgAmount": {
            "value": 275
          }
        }
      ]
    }
  }
}

在Java Api 中的实现方式

String tremsAlias = "userIdGroup";

//先分组，如果不指定size，默认10条，这里可以传个int最大值 2147483647，一次取所有数据
TermsAggregationBuilder termsAgg = AggregationBuilders.terms(tremsAlias).field("userId").size(Integer.MAX_VALUE).order(Terms.Order.term(true));
//聚合，count为自带的
termsAgg.subAggregation(AggregationBuilders.avg("avgAmount").field("amount"));
//声明BucketPath，用于后面的bucket筛选
Map<String, String> bucketsPathsMap = new HashMap<>(8);
bucketsPathsMap.put("orderCount", "_count");
bucketsPathsMap.put("avgAmount", "avgAmount");
//设置脚本
Script script = new Script("params.avgAmount >= 100 && params.orderCount >=2");

//构建bucket选择器
BucketSelectorPipelineAggregationBuilder bs =
        PipelineAggregatorBuilders.bucketSelector("having", bucketsPathsMap, script);

termsAgg.subAggregation(bs);

SearchRequestBuilder sb = client.prepareSearch("index_test").setTypes("type_order");
SearchResponse sr = sb.setSize(0).addAggregation(termsAgg).execute().actionGet();
System.out.println("查询Query：");
System.out.println(sb);

//获取聚合筛选的结果数据
LongTerms lt = sr.getAggregations().get(tremsAlias);
List<LongTerms.Bucket> buckets = lt.getBuckets();
for (int i = 0; i < buckets.size(); i++) {
    LongTerms.Bucket bucket = buckets.get(i);
    System.out.println("-------------------------");
    System.out.println(bucket.getKey());
    System.out.println("count = " + bucket.getDocCount());
    List<Aggregation> list = bucket.getAggregations().asList();
    for (Aggregation agg : list) {
        if (agg instanceof InternalAvg) {
            InternalAvg ia = bucket.getAggregations().get("avgAmount");
            System.out.println("avgAmount = " + ia.getValue());
        }
    }
    System.out.println("-------------------------");

}

五只鸭子

关注

12
点赞
踩
36

收藏

觉得还不错? 一键收藏
打赏
7
评论
ElasticSearch 聚合筛选，类似SQL里面的having

ElasticSearch 聚合筛选，类似SQL里面的having 特别说明：文章所有内容基于ElasticSerch 5.5.3版本背景我们在实际业务场景中会遇到聚合筛选的需求，需要先分组然后聚合，再通过聚合的结果进行筛选，关系型数据库中有having或者子查询来实现，ES中key使用 bucket_selector 来实现此功能实际业务场景需要找出下单次数大于等于...
复制链接

扫一扫