ES term之大小写

最新推荐文章于 2024-07-24 13:58:28 发布

强强强子

最新推荐文章于 2024-07-24 13:58:28 发布

阅读量2.3k

点赞数

分类专栏： elasticsearch 文章标签： elasticsearch 搜索引擎 lucene es

本文链接：https://blog.csdn.net/sinat_25926481/article/details/107607974

版权

elasticsearch 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

ES term之大小写

问题
解决问题
结论

如果不想看啰嗦的事由可以直接跳到结论

问题

同事说ES搜索，有些能搜索到，而有些确定是有数据的但是无法搜索出来。

解决问题

重现问题

向同事要了所要搜索的索引和字段以及搜索参数，验证下同事使用姿势是否正确。结果果然如同事所说，问题重现，无法匹配。

查看mapping映射以及_analyze API测试

发现这个字段是一个type为text 分词方式为自定义正则分词器以“,”(逗号)分割。
使用_analyze分词一个测试数据一切正常

GET picture/_analyze
{
  "text": "复式,北欧,2014,1-5W",
  "field": "tag3"
}

结果

{
  "tokens": [
    {
      "token": "复式",
      "start_offset": 0,
      "end_offset": 2,
      "type": "word",
      "position": 0
    },
    {
      "token": "北欧",
      "start_offset": 3,
      "end_offset": 5,
      "type": "word",
      "position": 1
    },
    {
      "token": "2014",
      "start_offset": 6,
      "end_offset": 10,
      "type": "word",
      "position": 2
    },
    {
      "token": "1-5w",//注意这里W 已经变成小写了
      "start_offset": 11,
      "end_offset": 15,
      "type": "word",
      "position": 3
    }
  ]
}

定位问题

文档存储这边一切正常，那么就是查询的时候姿势有问题，分析DSL查询语句发现使用的term进行的匹配，上面重现问题中已经发现匹配中文的数据正常，带有字母的就会有问题。term匹配是最小的单位不会处理匹配词，试用match匹配可以成功搜索到数据。match会对匹配词进行处理譬如分词，大写变小写。经过对比发现，果然文档内存储的是小写字母，而匹配词却是大写字母，所以使用term是无法匹配到数据的。