ElasticSearch | Term 查询 | 全文查询

最新推荐文章于 2024-04-21 16:20:53 发布

乌鲁木齐001号程序员

最新推荐文章于 2024-04-21 16:20:53 发布

阅读量226

点赞数

本文链接：https://blog.csdn.net/weixin_33669968/article/details/106276674

版权

Term | 词项

Term 是表达语义的最小单位，在搜索和自然语言处理时都需要处理 Term；
ES 中 Term 级别的查询：Term Query / Range Query / Exists Query / Prefix Query / Wildcard Query；
在 ES 的 Term 查询中，对输入不做分词，会将输入作为一个整体，在倒排索引中查找准确的词项，并且使用相关度算分公式为每一个包含该 Term 的文档进行相关度算分；
可以利用 Constant Score 将查询转换成一个 Filtering，避免算分，并利用缓存提高性能；

Term 查询 | 举几个栗子

大写的 "iPhone" 查询不到结果

因为文档在索引仅 ElasticSearch 中是要做分词的，会转小写写进 ElasticSearch 中；
Term 查询中，不会对输入不做分词，以为这是拿 "iPhone" 去倒排索引中查找准确的词项，而倒排索引中存储的词项是小写的，所以查不到结果；
用小写的 "iphone" 就可以查到结果；

DELETE products
PUT products
{
  "settings": {
    "number_of_shards": 1
  }
}


POST /products/_bulk
{ "index": { "_id": 1 }}
{ "productID" : "XHDK-A-1293-#fJ3","desc":"iPhone" }
{ "index": { "_id": 2 }}
{ "productID" : "KDKE-B-9947-#kL5","desc":"iPad" }
{ "index": { "_id": 3 }}
{ "productID" : "JODL-X-1937-#pV7","desc":"MBP" }

GET /products

POST /products/_search
{
  "query": {
    "term": {
      "desc": {
        "value": "iPhone
      }
    }
  }
}

搜索完整的 productId - "XHDK-A-1293-#fJ3" 搜不到结果

当文档索引到 ElasticSearch 中是做了分词处理的，"XHDK-A-1293-#fJ3" 用 standard 分词器分词的时候是把符号都去掉，然后转成小写的了；
如果搜索的是 "xhdk" 是可以搜索到的

POST /products/_search
{
  "query": {
    "term": {
      "productID": {
        "value": "XHDK-A-1293-#fJ3"
      }
    }
  }
}

以 keyword 搜索完整的 productId - "XHDK-A-1293-#fJ3" 可以搜索到结果

POST /products/_search
{
  //"explain": true,
  "query": {
    "term": {
      "productID.keyword": {
        "value": "XHDK-A-1293-#fJ3"
      }
    }
  }
}

总结：

Term 查询是不会对输入做分词处理的，但是文档索引到 ElasticSearch 中是做了索引的；
如果 Term 查询的时候，想要搜索某个字段没有被分词处理前的完整的值，可以配合多字段特性，为字段加上 keyword 子字段；

复合查询 | ConstantScore 转为 Filter

Term 查询会返回一个 ES 的算分结果；
对于 Term 查询，很多时候是不需要算分的过程的；
通过 Constant Score Query 转成 Filters 跳过算分的步骤，可以提升系统的性能，同时 Fiter 的方式可以有效利用缓存；

POST /products/_search
{
  "explain": true,
  "query": {
    "constant_score": {
      "filter": {
        "term": {
          "productID.keyword": "XHDK-A-1293-#fJ3"
        }
      }

    }
  }
}

基于全文的查询

基于全文的查询在 ES 中可以通过一下几种方式实现
- Match Query
- Match Phrase Query
- Query String Query

基于全文的查询 | 特点

索引和搜索时都会进行分词，查询字符串先传到一个合适的分词器，然后生成一个供查询的词项列表；
查询的时候，会先对输入的查询进行分词，然后每个词项逐个进行底层查询，最终将结果进行合并，并为每个文档生成一个算分，例如查 "Matrix reload" ，会查到包括 "Matrix" 和 "reload" 的所有结果；

Match Query | 默认逻辑 OR | 包含了 last 和 christmas 的所有文档

POST movies/_search
{
  "query": {
    "match": {
      "title": "last christmas"
    }
  }
}

改变 Match Query 的默认逻辑 | 同时包含 last 和 christmas 的文档

POST movies/_search
{
  "query": {
    "match": {
      "title": "last christmas",
      "operator":"AND"
    }
  }
}

Match Query | mininum_should_match

POST movies/_search
{
  "query": {
    "match": {
      "title": "last christmas",
      "mininum_should_match":2
    }
  }
}

Match Phrase Query | slop

POST movies/_search
{
  "query": {
    "match_phrase": {
      "title":{
        "query": "one love",
        "slop": 1
      }
    }
  }
}

乌鲁木齐001号程序员

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ElasticSearch | Term 查询 | 全文查询

Term | 词项Term 是表达语义的最小单位，在搜索和自然语言处理时都需要处理 Term；ES 中 Term 级别的查询：Term Query / Range Query / Exists Query / Prefix Query / Wildcard Query；在 ES 的 Term 查询中，对输入不做分词，会将输入作为一个整体，在倒排索引中查找准确的词项，并且使用相关度算分公式为...
复制链接

扫一扫