springboot中ElasticSearch入门与进阶:组合查询、Aggregation聚合查询

1.springboot中配置elasticSearch

1.1在工程中引入相关的jar包 

 1.1.1 在build.gradle中添加需要的jar包

      我创建的gradle工程,对应的maven工程也是一样,添加对应的jar包即可

 
  1. // 添加 Spring Data Elasticsearch 的依赖

  2. compile('org.springframework.boot:spring-boot-starter-data-elasticsearch')

  3. // 添加 JNA 的依赖,java访问当前操作系统需要的包

  4. compile('net.java.dev.jna:jna:4.3.0')

1.1.2在application.properties添加elasticsearch的配置

 
  1. #es的默认名称,如果安装es时没有做特殊的操作名字都是此名称

  2. spring.data.elasticsearch.cluster-name=elasticsearch

  3. # Elasticsearch 集群节点服务地址,用逗号分隔,如果没有指定其他就启动一个客户端节点,默认java访问端口9300

  4. spring.data.elasticsearch.cluster-nodes=localhost:9300

  5. # 设置连接超时时间

  6. spring.data.elasticsearch.properties.transport.tcp.connect_timeout=120s

1.2创建文档实体对象

 
  1. package site.wlss.blog.domain.es;

  2. import java.io.Serializable;

  3. import java.sql.Timestamp;

  4. import org.springframework.data.annotation.Id;

  5. import org.springframework.data.elasticsearch.annotations.Document;

  6. import org.springframework.data.elasticsearch.annotations.Field;

  7. import org.springframework.data.elasticsearch.annotations.FieldIndex;

  8. import site.wlss.blog.domain.Blog;

  9. /**

  10. * EsBlog 文档类.

  11. *

  12. * @since 2018年8月5日

  13. * @author wangli

  14. */

  15. /*@Document注解里面的几个属性,类比mysql的话是这样:

  16. index –> DB

  17. type –> Table

  18. Document –> row

  19. */

  20. @Document(indexName = "blog", type = "blog")

  21. public class EsBlog implements Serializable {

  22. private static final long serialVersionUID = 1L;

  23. @Id // 主键,注意这个搜索是id类型是string,与我们常用的不同

  24. private String id; //@Id注解加上后,在Elasticsearch里相应于该列就是主键了,在查询时就可以直接用主键查询

  25. @Field(index = FieldIndex.not_analyzed) // 不做全文检索字段

  26. private Long blogId; // Blog 实体的 id,这儿增加了一个blog的id属性

  27. private String title;

  28. private String summary;

  29. private String content;

  30. @Field(index = FieldIndex.not_analyzed) // 不做全文检索字段

上面是我的部分代码,注意要对实体对象有个@Document注解,对象的id也有个@id的注解,其中还有个@Field的注解,这是对该字段的说明,下面对这些注解给出详细解释

解释一:@Document注解

@Document注解里面的几个属性,类比mysql的话是这样: 
indexName –> 索引库的名称,建议以项目的名称命名,就相当于数据库DB
type –> 类型,建议以实体的名称命名Table ,就相当于数据库中的表table
Document –> row 就相当于某一个具体对象

附上注解的内容:

 
  1. String indexName();//索引库的名称,建议以项目的名称命名

  2. String type() default "";//类型,建议以实体的名称命名

  3. short shards() default 5;//默认分区数

  4. short replicas() default 1;//每个分区默认的备份数

  5. String refreshInterval() default "1s";//刷新间隔

  6. String indexStoreType() default "fs";//索引文件存储类型

解释二:@Id注解

在Elasticsearch里相应于该列就是主键了,在查询时就可以直接用主键查询

解释三:@Field注解

 
  1. public @interface Field {

  2. FieldType type() default FieldType.Auto;#自动检测属性的类型

  3. FieldIndex index() default FieldIndex.analyzed;#默认情况下分词

  4. DateFormat format() default DateFormat.none;

  5. String pattern() default "";

  6. boolean store() default false;#默认情况下不存储原文

  7. String searchAnalyzer() default "";#指定字段搜索时使用的分词器

  8. String indexAnalyzer() default "";#指定字段建立索引时指定的分词器

  9. String[] ignoreFields() default {};#如果某个字段需要被忽略

  10. boolean includeInParent() default false;

  11. }

2.通过jpa创建文档库

因为我们引入的是spring data的elasticsearch所以它遵循spring data的接口,也就是说操作elasticSearch与操作spring data jpa的方法是完全一样的,我们只将文档库继承ElasticsearchRepository即可。

 
  1. package site.wlss.blog.repository.es;

  2. import org.springframework.data.domain.Page;

  3. import org.springframework.data.domain.Pageable;

  4. import org.springframework.data.elasticsearch.repository.ElasticsearchRepository;

  5. import site.wlss.blog.domain.es.EsBlog;

  6. /**

  7. * EsBlog Repository接口.

  8. * @author Wang Li

  9. * @date 2018年8月5日

  10. */

  11. public interface EsBlogRepository extends ElasticsearchRepository<EsBlog, String> {

  12. //下面是我们根据 spring data jpa 的命名规范额外创建的两个查询方法

  13. /**

  14. * 模糊查询(去重),根据标题,简介,描述和标签查询(含有即可)Containing

  15. * @param title

  16. * @param Summary

  17. * @param content

  18. * @param tags

  19. * @param pageable

  20. * @return

  21. */

  22. Page<EsBlog> findDistinctEsBlogByTitleContainingOrSummaryContainingOrContentContainingOrTagsContaining(String title,String Summary,String content,String tags,Pageable pageable);

  23. /**

  24. * 根据 Blog 的id 查询 EsBlog

  25. * @param blogId

  26. * @return

  27. */

  28. EsBlog findByBlogId(Long blogId);

  29. }

里面的内容是我根据spring data jpa 额外创建的两个方法。

3.根据reporitory查询文档

这个方法和操作jpa中的普通的方法没什么区别,就是普通的增删改查。

4.ElasticSearch的高级复杂查询:非聚合查询和聚合查询

这儿才是我今天要讲的重点。

4.1非聚合复杂查询(这儿展示了非聚合复杂查询的常用流程)

 
  1. public List<EsBlog> elasticSerchTest() {

  2. //1.创建QueryBuilder(即设置查询条件)这儿创建的是组合查询(也叫多条件查询),后面会介绍更多的查询方法

  3. /*组合查询BoolQueryBuilder

  4. * must(QueryBuilders) :AND

  5. * mustNot(QueryBuilders):NOT

  6. * should: :OR

  7. */

  8. BoolQueryBuilder builder = QueryBuilders.boolQuery();

  9. //builder下有must、should以及mustNot 相当于sql中的and、or以及not

  10. //设置模糊搜索,博客的简诉中有学习两个字

  11. builder.must(QueryBuilders.fuzzyQuery("sumary", "学习"));

  12. //设置要查询博客的标题中含有关键字

  13. builder.must(new QueryStringQueryBuilder("man").field("springdemo"));

  14. //按照博客的评论数的排序是依次降低

  15. FieldSortBuilder sort = SortBuilders.fieldSort("commentSize").order(SortOrder.DESC);

  16. //设置分页(从第一页开始,一页显示10条)

  17. //注意开始是从0开始,有点类似sql中的方法limit 的查询

  18. PageRequest page = new PageRequest(0, 10);

  19. //2.构建查询

  20. NativeSearchQueryBuilder nativeSearchQueryBuilder = new NativeSearchQueryBuilder();

  21. //将搜索条件设置到构建中

  22. nativeSearchQueryBuilder.withQuery(builder);

  23. //将分页设置到构建中

  24. nativeSearchQueryBuilder.withPageable(page);

  25. //将排序设置到构建中

  26. nativeSearchQueryBuilder.withSort(sort);

  27. //生产NativeSearchQuery

  28. NativeSearchQuery query = nativeSearchQueryBuilder.build();

  29. //3.执行方法1

  30. Page<EsBlog> page = esBlogRepository.search(query);

  31. //执行方法2:注意,这儿执行的时候还有个方法那就是使用elasticsearchTemplate

  32. //执行方法2的时候需要加上注解

  33. //@Autowired

  34. //private ElasticsearchTemplate elasticsearchTemplate;

  35. List<EsBlog> blogList = elasticsearchTemplate.queryForList(query, EsBlog.class);

  36. //4.获取总条数(用于前端分页)

  37. int total = (int) page.getTotalElements();

  38. //5.获取查询到的数据内容(返回给前端)

  39. List<EsBlog> content = page.getContent();

  40. return content;

  41. }

4.2查询条件QueryBuilder的构建方法举例

在使用聚合查询之前我们有必要先来了解下创建查询条件QueryBuilder的几种常用方法

4.2.1精确查询(必须完全匹配上)

单个匹配termQuery

 
  1. //不分词查询 参数1: 字段名,参数2:字段查询值,因为不分词,所以汉字只能查询一个字,英语是一个单词.

  2. QueryBuilder queryBuilder=QueryBuilders.termQuery("fieldName", "fieldlValue");

  3. //分词查询,采用默认的分词器

  4. QueryBuilder queryBuilder2 = QueryBuilders.matchQuery("fieldName", "fieldlValue");

多个匹配

 
  1. //不分词查询,参数1: 字段名,参数2:多个字段查询值,因为不分词,所以汉字只能查询一个字,英语是一个单词.

  2. QueryBuilder queryBuilder=QueryBuilders.termsQuery("fieldName", "fieldlValue1","fieldlValue2...");

  3. //分词查询,采用默认的分词器

  4. QueryBuilder queryBuilder= QueryBuilders.multiMatchQuery("fieldlValue", "fieldName1", "fieldName2", "fieldName3");

  5. //匹配所有文件,相当于就没有设置查询条件

  6. QueryBuilder queryBuilder=QueryBuilders.matchAllQuery();

4.2.2模糊查询(只要包含即可)

 
  1. //模糊查询常见的5个方法如下

  2. //1.常用的字符串查询

  3. QueryBuilders.queryStringQuery("fieldValue").field("fieldName");//左右模糊

  4. //2.常用的用于推荐相似内容的查询

  5. QueryBuilders.moreLikeThisQuery(new String[] {"fieldName"}).addLikeText("pipeidhua");//如果不指定filedName,则默认全部,常用在相似内容的推荐上

  6. //3.前缀查询 如果字段没分词,就匹配整个字段前缀

  7. QueryBuilders.prefixQuery("fieldName","fieldValue");

  8. //4.fuzzy query:分词模糊查询,通过增加fuzziness模糊属性来查询,如能够匹配hotelName为tel前或后加一个字母的文档,fuzziness 的含义是检索的term 前后增加或减少n个单词的匹配查询

  9. QueryBuilders.fuzzyQuery("hotelName", "tel").fuzziness(Fuzziness.ONE);

  10. //5.wildcard query:通配符查询,支持* 任意字符串;?任意一个字符

  11. QueryBuilders.wildcardQuery("fieldName","ctr*");//前面是fieldname,后面是带匹配字符的字符串

  12. QueryBuilders.wildcardQuery("fieldName","c?r?");

4.2.3范围查询

 
  1. //闭区间查询

  2. QueryBuilder queryBuilder0 = QueryBuilders.rangeQuery("fieldName").from("fieldValue1").to("fieldValue2");

  3. //开区间查询

  4. QueryBuilder queryBuilder1 = QueryBuilders.rangeQuery("fieldName").from("fieldValue1").to("fieldValue2").includeUpper(false).includeLower(false);//默认是true,也就是包含

  5. //大于

  6. QueryBuilder queryBuilder2 = QueryBuilders.rangeQuery("fieldName").gt("fieldValue");

  7. //大于等于

  8. QueryBuilder queryBuilder3 = QueryBuilders.rangeQuery("fieldName").gte("fieldValue");

  9. //小于

  10. QueryBuilder queryBuilder4 = QueryBuilders.rangeQuery("fieldName").lt("fieldValue");

  11. //小于等于

  12. QueryBuilder queryBuilder5 = QueryBuilders.rangeQuery("fieldName").lte("fieldValue");

4.2.4组合查询/多条件查询/布尔查询

 
  1. QueryBuilders.boolQuery()

  2. QueryBuilders.boolQuery().must();//文档必须完全匹配条件,相当于and

  3. QueryBuilders.boolQuery().mustNot();//文档必须不匹配条件,相当于not

  4. QueryBuilders.boolQuery().should();//至少满足一个条件,这个文档就符合should,相当于or

4.3聚合查询

Elasticsearch有一个功能叫做 聚合(aggregations) ,它允许你在数据上生成复杂的分析统计。它很像SQL中的 GROUP BY 但是功能更强大。

为了掌握聚合,你只需要了解两个主要概念:(参考https://blog.csdn.net/dm_vincent/article/details/42387161)

Buckets(桶):满足某个条件的文档集合。

Metrics(指标):为某个桶中的文档计算得到的统计信息。

就是这样!每个聚合只是简单地由一个或者多个桶,零个或者多个指标组合而成。可以将它粗略地转换为SQL:

 
  1. SELECT COUNT(color)

  2. FROM table

  3. GROUP BY color

以上的COUNT(color)就相当于一个指标。GROUP BY color则相当于一个桶。

桶和SQL中的组(Grouping)拥有相似的概念,而指标则与COUNT(),SUM(),MAX()等相似。

让我们仔细看看这些概念。

桶(Buckets)

一个桶就是满足特定条件的一个文档集合:

  • 一名员工要么属于男性桶,或者女性桶。
  • 城市Albany属于New York州这个桶。
  • 日期2014-10-28属于十月份这个桶。

随着聚合被执行,每份文档中的值会被计算来决定它们是否匹配了桶的条件。如果匹配成功,那么该文档会被置入该桶中,同时聚合会继续执行。

桶也能够嵌套在其它桶中,能让你完成层次或者条件划分这些需求。比如,Cincinnati可以被放置在Ohio州这个桶中,而整个Ohio州则能够被放置在美国这个桶中。

ES中有很多类型的桶,让你可以将文档通过多种方式进行划分(按小时,按最流行的词条,按年龄区间,按地理位置,以及更多)。但是从根本上,它们都根据相同的原理运作:按照条件对文档进行划分。

指标(Metrics)

桶能够让我们对文档进行有意义的划分,但是最终我们还是需要对每个桶中的文档进行某种指标计算。分桶是达到最终目的的手段:提供了对文档进行划分的方法,从而让你能够计算需要的指标。

多数指标仅仅是简单的数学运算(比如,min,mean,max以及sum),它们使用文档中的值进行计算。在实际应用中,指标能够让你计算例如平均薪资,最高出售价格,或者百分之95的查询延迟。

将两者结合起来

一个聚合就是一些桶和指标的组合。一个聚合可以只有一个桶,或者一个指标,或者每样一个。在桶中甚至可以有多个嵌套的桶。比如,我们可以将文档按照其所属国家进行分桶,然后对每个桶计算其平均薪资(一个指标)。

因为桶是可以嵌套的,我们能够实现一个更加复杂的聚合操作:

  1. 将文档按照国家进行分桶。(桶)
  2. 然后将每个国家的桶再按照性别分桶。(桶)
  3. 然后将每个性别的桶按照年龄区间进行分桶。(桶)
  4. 最后,为每个年龄区间计算平均薪资。(指标)

聚合查询都是由AggregationBuilders创建的,一些常见的聚合查询如下

(参考:http://blog.csdn.net/u010454030/article/details/63266035

 
  1. (1)统计某个字段的数量

  2. ValueCountBuilder vcb= AggregationBuilders.count("count_uid").field("uid");

  3. (2)去重统计某个字段的数量(有少量误差)

  4. CardinalityBuilder cb= AggregationBuilders.cardinality("distinct_count_uid").field("uid");

  5. (3)聚合过滤

  6. FilterAggregationBuilder fab= AggregationBuilders.filter("uid_filter").filter(QueryBuilders.queryStringQuery("uid:001"));

  7. (4)按某个字段分组

  8. TermsBuilder tb= AggregationBuilders.terms("group_name").field("name");

  9. (5)求和

  10. SumBuilder sumBuilder= AggregationBuilders.sum("sum_price").field("price");

  11. (6)求平均

  12. AvgBuilder ab= AggregationBuilders.avg("avg_price").field("price");

  13. (7)求最大值

  14. MaxBuilder mb= AggregationBuilders.max("max_price").field("price");

  15. (8)求最小值

  16. MinBuilder min= AggregationBuilders.min("min_price").field("price");

  17. (9)按日期间隔分组

  18. DateHistogramBuilder dhb= AggregationBuilders.dateHistogram("dh").field("date");

  19. (10)获取聚合里面的结果

  20. TopHitsBuilder thb= AggregationBuilders.topHits("top_result");

  21. (11)嵌套的聚合

  22. NestedBuilder nb= AggregationBuilders.nested("negsted_path").path("quests");

  23. (12)反转嵌套

  24. AggregationBuilders.reverseNested("res_negsted").path("kps ");

聚合查询的详细使用步骤如下:

 
  1. public void test(){

  2. //目标:搜索写博客写得最多的用户(一个博客对应一个用户),通过搜索博客中的用户名的频次来达到想要的结果

  3. //首先新建一个用于存储数据的集合

  4. List<String> ueserNameList=new ArrayList<>();

  5. //1.创建查询条件,也就是QueryBuild

  6. QueryBuilder matchAllQuery = QueryBuilders.matchAllQuery();//设置查询所有,相当于不设置查询条件

  7. //2.构建查询

  8. NativeSearchQueryBuilder nativeSearchQueryBuilder = new NativeSearchQueryBuilder();

  9. //2.0 设置QueryBuilder

  10. nativeSearchQueryBuilder.withQuery(matchAllQuery);

  11. //2.1设置搜索类型,默认值就是QUERY_THEN_FETCH,参考https://blog.csdn.net/wulex/article/details/71081042

  12. nativeSearchQueryBuilder.withSearchType(SearchType.QUERY_THEN_FETCH);//指定索引的类型,只先从各分片中查询匹配的文档,再重新排序和排名,取前size个文档

  13. //2.2指定索引库和文档类型

  14. nativeSearchQueryBuilder.withIndices("myBlog").withTypes("blog");//指定要查询的索引库的名称和类型,其实就是我们文档@Document中设置的indedName和type

  15. //2.3重点来了!!!指定聚合函数,本例中以某个字段分组聚合为例(可根据你自己的聚合查询需求设置)

  16. //该聚合函数解释:计算该字段(假设为username)在所有文档中的出现频次,并按照降序排名(常用于某个字段的热度排名)

  17. TermsBuilder termsAggregation = AggregationBuilders.terms("给聚合查询取的名").field("username").order(Terms.Order.count(false));

  18. nativeSearchQueryBuilder.addAggregation(termsAggregation);

  19. //2.4构建查询对象

  20. NativeSearchQuery nativeSearchQuery = nativeSearchQueryBuilder.build();

  21. //3.执行查询

  22. //3.1方法1,通过reporitory执行查询,获得有Page包装了的结果集

  23. Page<EsBlog> search = esBlogRepository.search(nativeSearchQuery);

  24. List<EsBlog> content = search.getContent();

  25. for (EsBlog esBlog : content) {

  26. ueserNameList.add(esBlog.getUsername());

  27. }

  28. //获得对应的文档之后我就可以获得该文档的作者,那么就可以查出最热门用户了

  29. //3.2方法2,通过elasticSearch模板elasticsearchTemplate.queryForList方法查询

  30. List<EsBlog> queryForList = elasticsearchTemplate.queryForList(nativeSearchQuery, EsBlog.class);

  31. //3.3方法3,通过elasticSearch模板elasticsearchTemplate.query()方法查询,获得聚合(常用)

  32. Aggregations aggregations = elasticsearchTemplate.query(nativeSearchQuery, new ResultsExtractor<Aggregations>() {

  33. @Override

  34. public Aggregations extract(SearchResponse response) {

  35. return response.getAggregations();

  36. }

  37. });

  38. //转换成map集合

  39. Map<String, Aggregation> aggregationMap = aggregations.asMap();

  40. //获得对应的聚合函数的聚合子类,该聚合子类也是个map集合,里面的value就是桶Bucket,我们要获得Bucket

  41. StringTerms stringTerms = (StringTerms) aggregationMap.get("给聚合查询取的名");

  42. //获得所有的桶

  43. List<Bucket> buckets = stringTerms.getBuckets();

  44. //将集合转换成迭代器遍历桶,当然如果你不删除buckets中的元素,直接foreach遍历就可以了

  45. Iterator<Bucket> iterator = buckets.iterator();

  46. while(iterator.hasNext()) {

  47. //bucket桶也是一个map对象,我们取它的key值就可以了

  48. String username = iterator.next().getKeyAsString();//或者bucket.getKey().toString();

  49. //根据username去结果中查询即可对应的文档,添加存储数据的集合

  50. ueserNameList.add(username);

  51. }

  52. //最后根据ueserNameList搜索对应的结果集

  53. List<User> listUsersByUsernames = userService.listUsersByUsernames(ueserNameList);

  54. }

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值