ElasticSearch之匹配查询operator和minimumShouldMatch用法详解

使用场景

我现在有两个字段参与索引,文件名称和文件索引。

搜索的时候,一个关键字匹配查询两个字段。

思路分析

众所周知,匹配查询先分词再查询。

单字段查询比较简单,下边有两个例子,一个单字段,一个多字段布尔匹配查询。

假如单字段查询关键字为“万里长城真伟大”。

注意:

在这个测试过程中,我没有使用Kibana进行测试,我是直接使用java代码测试的,结果是一样的。

为什么不使用Kibana呢?原因如下:

Kibana语法,每次写的时候,我都是打开Kibana文档,直接复制粘贴,改改就用,不是我吹,应该没几个人能背的下来吧,而且Kibana的格式要求很严格,纯手写能写出来的都是秀儿。所以我不想再看文档了,反正手头上有代码,直接写完事儿。

查询第一步:分词

{
  "tokens": [
    {
      "token": "万里长城",
      "start_offset": 0,
      "end_offset": 4,
      "type": "CN_WORD",
      "position": 0
    },
    {
      "token": "万里",
      "start_offset": 0,
      "end_offset": 2,
      "type": "CN_WORD",
      "position": 1
    },
    {
      "token": "万",
      "start_offset": 0,
      "end_offset": 1,
      "type": "TYPE_CNUM",
      "position": 2
    },
    {
      "token": "里长",
      "start_offset": 1,
      "end_offset": 3,
      "type": "CN_WORD",
      "position": 3
    },
    {
      "token": "里",
      "start_offset": 1,
      "end_offset": 2,
      "type": "COUNT",
      "position": 4
    },
    {
      "token": "长城",
      "start_offset": 2,
      "end_offset": 4,
      "type": "CN_WORD",
      "position": 5
    },
    {
      "token": "真",
      "start_offset": 4,
      "end_offset": 5,
      "type": "CN_CHAR",
      "position": 6
    },
    {
      "token": "伟大",
      "start_offset": 5,
      "end_offset": 7,
      "type": "CN_WORD",
      "position": 7
    }
  ]
}

查询第二步:匹配

匹配查询中要用到两个参数。

operator:默认为or。

minimumShouldMatch:默认为1。

重点API:operator

在上边万里长城真伟大这个查询中,如果operator为or,为and会有什么不同的区别呢。

为or时:

索引库中,只要文档的content这个字段内容包含“万里长城”,“里”,“真”,“伟大”等任何一个分词,该条文档就会被索引到。

为and时:

索引库中,文档的content这个字段必须包含“万里长城”,“里”,“真”,“伟大”等所有分词 ,这就是and。

看下边的测试,多字段匹配兼布尔should查询。很明显and时候,更加准确。

在这里插入图片描述

重点API:minimumShouldMatch

在上边万里长城真伟大这个查询中,如果minimumShouldMatch为0,为1,为10会有什么不同的区别呢。

明确两点:

第一:

只有operator为or时,minimumShouldMatch才有效。

毕竟operator为and时,要求全部都匹配上,都要满足,minimumShouldMatch这边你又设置了只要满足两个词条就可以返回,两个条件冲突了。

第二:

minimumShouldMatch这个api的主要目的是为了避免搜索不精确,比如万里长城真伟大。

如果索引库中一个文档的内容中,包含“真”字就返回了,这就不科学了。

为0时:

是不是猜测,为0的时候,一个都不用匹配到,就可以返回。

然而结果是残酷的,我设置了为0,并不是全部返回,还是要有一个匹配的词条才会返回。

​ ES对这个api还是有所限制的,毕竟如果返回全部内容的话,ES检索没有意义。

为1时:

正常默认情况下,就是为1。

为10时:

你的关键字能分为10个词条吗,字段里的内容如果分词后能有10个词条,可以返回。

设置为10的时候,很多东西会搜索不出来,返回结果数量为0。

关于这个测试,我将测试结果,截图放在这里。

最左侧是搜索关键字,仅仅搜索文件内容这一个字段,设置不同minimumShouldMatch的大小,看不同的结果。

在这里插入图片描述
观察发现:

1、为1和为0都一样,ES对这个API有处理。

2、为10时,我发现很多关键字都搜索不出来结果,所以我缩小为4,缩小为2,结果慢慢就出来了。慎用。

3、我发现金融两个字,都是125条数据,很纳闷,一开始我以为因为是法规库,所以字段内容金融两字确实比较多,所以显示出来,然后我又试了将大小调整为100,1000,还是125条数据,我就悟了

我对金融进行分词,看看金融的分词结果,金融不参与分词,分词词条数量这个API对它无效。

在这里插入图片描述
··········································································
一家之言,当不得真,有错误的地方,感谢指出。

  • 6
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
Elasticsearch 聚合查询(Aggregation)是一种用于对数据进行多维度分析的功能。聚合查询可以用于分析数据的分布情况、计算数据的统计信息、生成图表等。在 Elasticsearch 中,聚合查询是通过使用特定的聚合器(Aggregator)来完成的。 Java 中使用 Elasticsearch 聚合查询需要使用 Elasticsearch Java API。首先需要创建一个 SearchRequest 对象,并设置需要查询的索引和查询条件。然后创建一个 AggregationBuilder 对象,用于定义聚合查询的规则和参数。最后将 AggregationBuilder 对象添加到 SearchRequest 中,执行查询操作。 以下是一个简单的 Java 代码示例,用于查询某个索引下的数据,并按照某个字段进行分组聚合查询: ``` SearchRequest searchRequest = new SearchRequest("index_name"); SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder(); TermsAggregationBuilder aggregationBuilder = AggregationBuilders.terms("group_by_field").field("field_name"); searchSourceBuilder.aggregation(aggregationBuilder); searchRequest.source(searchSourceBuilder); SearchResponse searchResponse = client.search(searchRequest, RequestOptions.DEFAULT); Terms terms = searchResponse.getAggregations().get("group_by_field"); for (Terms.Bucket bucket : terms.getBuckets()) { String key = bucket.getKeyAsString(); long count = bucket.getDocCount(); System.out.println("key: " + key + ", count: " + count); } ``` 在上面的代码中,首先创建了一个 SearchRequest 对象,设置需要查询的索引和查询条件。然后创建了一个 TermsAggregationBuilder 对象,用于按照某个字段进行分组聚合查询。最后将 TermsAggregationBuilder 对象添加到 SearchRequest 中,执行查询操作。 查询结果会返回一个 Terms 对象,其中包含了分组聚合查询的结果。可以使用 Terms 对象的 getBuckets() 方法获取分组聚合查询的结果列表。每个分组聚合查询结果由一个 Terms.Bucket 对象表示,其中包含了分组聚合查询的键值和文档数量等信息。 以上是简单的聚合查询示例,Elasticsearch 聚合查询功能非常强大,支持多种聚合器和聚合规则,可以根据具体需求进行调整和扩展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值