Elasticsearch 查询之term,match,match_phrase

1. term查询是基于词项的查询,而且当设置为term查询时,es不会对这个词做任何处理,但是在文本进行分词时,通常都会将大写转为小写,这个时候就会出现查不出来的情况,比如:


POST /test/_doc
{
  "name":"Pantheon"
}

这样创建出来的doc可以看到明显做了lowercase,因为用的standard分词器
GET /test/_analyze
{
  "field": "name",
  "text": "Pantheon"
  
}
// 结果如下

{
  "tokens" : [
    {
      "token" : "pantheon",
      "start_offset" : 0,
      "end_offset" : 8,
      "type" : "<ALPHANUM>",
      "position" : 0
    }
  ]
}

所以当使用下面的语句去查时,会没有结果
GET /test/_search
{
  "query": {
    "term": {
      "name": {
        "value": "Pantheon"
      }
    }
  }
}
所以需要使用es给字段额外添加的一个元数据信息.keyword,在生成文本时,
es也会将该字段原封不动的保存到keyword属性当中去,所以下面这个语句可以查询出来

GET /test/_search
{
  "query": {
    "term": {
      "name.keyword": {
        "value": "Pantheon"
      }
    }
  }
}


2. match 和match_pharse查询都是属于全文查询,全文查询会给当前的句子进行分词,通常来讲,索引的时候怎么分的词,查询的时候就是用的什么分词器,默认是不用设置的,但是如果有个别场景,也可以自己设置分词器。

区别举个例子,"I am Pantheon",这句话如果用match来查,会搜出字段中有"I","am","Pantheon"的文档,也就是说默认是只要这段话中有这查询几个词的一个就返回文档  [结果1];当然也可以设置他的'operator'属性为'and',要求查出来的必须包含"I am Pantheon"这几个词" [结果2]。

match_pharse可以精确的查询"I am Pantheon"【demo3】这一段话,这几个词之间有没有间隔可以通过slot属性来设置【demo4】,比如设置了slot为1,那就可以查出"I am not Pantheon"这样的句子,举例如下:


POST /test/_bulk
{ "index": { "_id": 1 }}
{ "desc":"I am Pantheon" }
{ "index": { "_id": 2 }}
{ "desc":"I am not Pantheon" }
{ "index": { "_id": 3 }}
{ "desc":"I am Leo" }

### 结果1
GET /test/_search
{
  "query": {
    "match": {
      "desc": "I am Pantheon"
    }
  }
}
### 结果2
GET /test/_search
{
  "query": {
    "match": {
      "desc":{
        "query": "I am Pantheon",
        "operator": "and"
      }
    }
  }
}
### 结果3
GET /test/_search
{
  "query": {
    "match_phrase": {
      "desc":{
        "query": "I am Pantheon"
      }
    }
  }
}

### 结果4--有先后顺序 包含多个,解决了我们查询只有部分匹配。示例 张峰 ,会将所有张的查到,峰的也会查到。
GET /test/_search
{
  "query": {
    "match_phrase": {
      "desc":{
        "query": "I am Pantheon"
      }
    }
  }
}
### 结果5
GET /test/_search
{
  "query": {
    "match_phrase": {
      "desc":{
        "query": "I am Pantheon",
        "slop": 1
      }
    }
  }
}

总结:三种查询都是对分词组合不同的玩法

1.基于词项的查询

a.term查询,基于词项的查询。精确匹配,只是查分词,不会对查询语句做任何处理。es不会对这个词做任何处理,但是在文本进行分词时,通常都会将大写转为小写,这个时候就会出现大小写不匹配查不出来的情况

2.全文查询【对当前句子进行分词】

match 和match_pharse查询都是属于全文查询,全文查询会给当前的句子进行分词

b.match查询,查询语句分词后对文档是否包含的一种

c.match_phase是对查询语句分词后,各词项间隔距离多少的玩法

 

 

ps  我们线上曾经遇见过一个问题:

问题描述:使用的是match查询,但是当我们查询 ”张峰”时,会将所有“张”的查询到,“峰”的也会查询到。这样就会导致一个问题,例如查询“努尔哈赤-张峰”,那么就会返回很多我们不希望要的结果。

解决办法

1.使用match_phrase 精确查询,如果查询 “张峰”,那么返回所有的结果集,都是 “张峰”。由于业务没有使用slop【参数如果置为1,可以同时查询得到 “张峰” “张大峰”】

2.继续使用match 查询,但是加上operator 。示例

GET /test/_search
{
  "query": {
    "match": {
      "desc":{
        "query": "I am zhanggf",
        "operator": "and"
      }
    }
  }
}


如上的可以查看到 
I am zhanggf
I am not zhanggf

 

ES 第一次线上规划设计,难免有很多理解偏差。后续继续修正。

 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
你遇到的问题可能是由于Elasticsearch的分析器配置不正确导致的。当使用match_phrase查询时,默认情况下,Elasticsearch会应用分析器来对查询字符串进行分词处理,然后再与索引中的文本进行匹配。对于中文文本,分析器可能会将文本按照字或词进行分词,而对于数字和英文文本,可能会按照空格或标点符号进行分词。这就导致了在使用match_phrase查询时无法准确匹配数字和英文。 要解决这个问题,你可以考虑以下几种方法: 1. 明确指定要匹配的字段的分析器:你可以通过显式地指定要匹配的字段的分析器,确保分析器适用于数字和英文文本。例如,可以使用keyword分析器来保持字段的原始内容不变。 2. 自定义分析器:你可以创建自定义分析器,根据你的需求对数字和英文文本进行适当的分词处理。可以使用字符过滤器、分词器和标记过滤器等组件来定义自定义分析器。 3. 使用term查询:如果你希望精确匹配数字和英文文本,可以考虑使用term查询而不是match_phrase查询term查询不会应用分析器,直接将查询字符串与索引中的词条进行精确匹配。 请注意,在使用以上方法时,还需要确保索引中的字段映射与你的需求相匹配,例如字段类型、分析器等设置。此外,还可以考虑使用其他查询类型,如match查询或query_string查询,根据具体情况选择合适的查询方式。 希望这些信息能帮助你解决问题!如有更多疑问,请随时提问。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值