ES聚合查询根据字段进行分组

最新推荐文章于 2024-05-10 21:33:12 发布

一粒老仙丹

最新推荐文章于 2024-05-10 21:33:12 发布

阅读量1.8w

点赞数 1

分类专栏： ElasticSearch 文章标签： elasticsearch聚合查询

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jianshaoguang8886/article/details/82012038

版权

ElasticSearch 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

es在使用聚合查询根据字段进行分组的时候，发现一个情况

// 声明where 条件
BoolQueryBuilder qbs = QueryBuilders.boolQuery();

QueryBuilder qb1 = QueryBuilders.rangeQuery("create_date").from("2018-07-01 00:00:00").to("2018-08-23 00:00:00").includeLower(true).includeUpper(true);
BoolQueryBuilder qbs1 = QueryBuilders.boolQuery().must(qb1);
qbs.must(qbs1);

SearchRequestBuilder requestBuilder = client.prepareSearch("user_login_detail")
                    .setTypes("login_detail");
requestBuilder.setQuery(qbs);

requestBuilder.setFrom(0);
requestBuilder.setSize(1000000);

GroupBy groupBy = new GroupBy(requestBuilder, "count_name", "user_name", true);
groupBy.addCountAgg("count_name", "user_name");
Map<String, Object> groupbyResponse = groupBy.getGroupbyResponse();
for (Map.Entry<String, Object> entry : groupbyResponse.entrySet()) {
    String bucketKey = entry.getKey(); 
}

上面是查询用户的登录流水，查询出一百万的数据进行分组，表数据4000W+ 此次分组执行时间在38s，当去掉setSize属性之后执行时间为1.8s。在添加size属性之后es会根据查询的数据进行分组，并且在分组之后，返回查询的数据作为结果集，在不设置size的属性时，es默认只返回聚合后的结果集，数据量大幅度减少所以提高效率

一粒老仙丹

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
ES聚合查询根据字段进行分组

es在使用聚合查询根据字段进行分组的时候，发现一个情况// 声明where 条件BoolQueryBuilder qbs = QueryBuilders.boolQuery();QueryBuilder qb1 = QueryBuilders.rangeQuery(&amp;quot;create_date&amp;quot;).from(&amp;quot;2018-07-01 00:00:00&amp;quot;).to(&amp;quot;2018
复制链接

扫一扫

专栏目录

一粒老仙丹 CSDN认证博客专家 CSDN认证企业博客

码龄8年

16: 原创

20万+: 周排名

206万+: 总排名

8万+: 访问

: 等级

808: 积分

5: 粉丝

10: 获赞

20: 评论

55: 收藏

私信

关注

热门文章

分类专栏

最新评论

解决logback无法生成第二天日志的问题
EVIL_catdog: 改了之后仍然不行，和logback版本有关系吗
ElasticSearch 聚合查询之后会结果进行排序
王德富: 解惑了
ElasticSearch 查询为空的字符串
℉an公众号：独孤道人回复一粒老仙丹: 6.5.1 不行，空字符串还是查不出来
ElasticSearch 查询为空的字符串
job2wd: 有 parent_id 的记录：（5）id："555555555"， parent_id："333333333"， create_time: "2020-05-01 08:00:10", ... （6）id："666666666"， parent_id："333333333"， create_time: "2020-06-01 08:00:10", ... （7）id："777777777"， parent_id："444444444"， create_time: "2020-07-01 08:00:10", ... （8）id："888888888"， parent_id："444444444"， create_time: "2020-08-01 12:00:10", ... =============================== 最终的查询结果为： =============================== （8）（6）（2）（1）[code=html] 有 parent_id 的记录：（5）id："555555555"， parent_id："333333333"， create_time: "2020-05-01 08:00:10", ... （6）id："666666666"， parent_id："333333333"， create_time: "2020-06-01 08:00:10", ... （7）id："777777777"， parent_id："444444444"， create_time: "2020-07-01 08:00:10", ... （8）id："888888888"， parent_id："444444444"， create_time: "2020-08-01 12:00:10", ... =============================== 最终的查询结果为： =============================== （8）（6）（2）（1） [/code]
ElasticSearch 查询为空的字符串
job2wd: 请教大神，我有如下一个需求，不知道怎么实现，能帮我写个DSL吗？我是ES新手，对ES不熟练，谢谢！（DSL可以发我邮箱：mail2wd@163.com） =============================== 我的 mapping： =============================== "mappings": { "properties": { "id": { "type": "keyword" }, "parent_id": { "type": "keyword" }, "create_time": { "type": "date", "format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis||date_optional_time" }, ... } } =============================== 实现要求： =============================== 1. 查询没有 parent_id 的所有记录（parent_id 为空）； 2. 查询所有 parent_id 不为空的记录（用 parent_id 分组），并取每组最新的记录（用 create_time 降序排列）； 3. 过滤掉查询 1 的结果中id 在查询 2 结果的 parent_id 中出现的记录； 4. 合并查询 2 和查询 3 的结果，然后用 create_time 降序排列得到最终的结果； =============================== 示例数据： =============================== 没有 parent_id 的记录：（1）id："1111111"， parent_id：""， create_time: "2020-01-01 08:20:10", ... （2）id："2222222"， parent_id：""， create_time: "2020-02-01 08:20:10", ... 有 parent_id 的记录[code=html] 请教大神，我有如下一个需求，不知道怎么实现，能帮我写个DSL吗？我是ES新手，对ES不熟练，谢谢！（DSL可以发我邮箱：mail2wd@163.com） =============================== 我的 mapping： =============================== "mappings": { "properties": { "id": { "type": "keyword" }, "parent_id": { "type": "keyword" }, "create_time": { "type": "date", "format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis||date_optional_time" }, ... } } =============================== 实现要求： =============================== 1. 查询没有 parent_id 的所有记录（parent_id 为空）； 2. 查询所有 parent_id 不为空的记录（用 parent_id 分组），并取每组最新的记录（用 create_time 降序排列）； 3. 过滤掉查询 1 的结果中id 在查询 2 结果的 parent_id 中出现的记录； 4. 合并查询 2 和查询 3 的结果，然后用 create_time 降序排列得到最终的结果； =============================== 示例数据： =============================== 没有 parent_id 的记录：（1）id："1111111"， parent_id：""， create_time: "2020-01-01 08:20:10", ... （2）id："2222222"， parent_id：""， create_time: "2020-02-01 08:20:10", ... 有 parent_id 的记录 [/code]

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。