优化 es 中 should 加 matchPhraseQuery 查询性能

贪吃小龙

已于 2022-07-28 10:15:21 修改

阅读量2k

点赞数

分类专栏： es 文章标签： elasticsearch java

于 2022-07-27 18:35:19 首次发布

本文链接：https://blog.csdn.net/m0_67851397/article/details/126019609

版权

本文讨论了在后端接口响应时间要求严格的背景下，如何优化Elasticsearch查询性能。问题在于should+matchPhraseQuery组合用于批量查询用户名称对应的用户昵称时，随着查询数量增加，性能下降，且可能存在查询结果不准确和内存问题。解决方案是添加不分词的keyword字段，通过_update_by_query重新索引数据，并调整查询代码以提高效率。

摘要由CSDN通过智能技术生成

先说下优化的背景

我们后端的所有接口有一个质量属性的要求，就是保证我们的接口响应时长不能超过 1s，而这个根据用户名称查询用户昵称是很多其他接口的依赖，首先这个查询的过程，没法做缓存，因为客户那边需要实时看到用户更新的动态，如果将用户名称和昵称做缓存，会出现延迟响应的过程，因此只能考虑怎么更快的查询出一批用户名称对应的用户昵称。

代码存在的问题

代码中其他的查询条件都还 ok，就是有一个地方，会因为批量查询的用户名称越多而导致响应时间变慢，下面是一部分原始代码，由于涉及到业务，只贴出关键性的代码

BoolQueryBuilder userNameShouldBuilder = QueryBuilders.boolQuery();
for (String userName : userNames) {
   
    userNameShouldBuilder.should(QueryBuilders.matchPhraseQuery("user_name",userName));
}
boolQueryBuilder.must(userNameShouldBuilder);

为啥要用 should + matchPhraseQuery 的方式查询了？
其实这样看 es 索引的 mapping 字段长啥样

"mappings" : {
   
      ...,
      "user_name" : {
   
          "type" : "text",
          "analyzer" : "analyzer_1_20"
      }
      ...,
}

user_name 字段定义了一个自定义的分词器，我们可以通过 analyzer api 看下分词效果

GET index_name/_analyze
{
   
  "analyzer": "analyzer_1_20",
  "text": "qq1234"
}

它的结果如下

{
   
  "tokens" : [
    {
   
      "token" : "q",
      "start_offset" : 0,
      "end_offset" : 1,
      "type" : "word",
      "position" : 0
    },
    {
   
      "token" : "qq",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "word",
      "position" : 1
    },
    {
   
      "token" : "qq1",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "word",
      "position" : 2

最低0.47元/天解锁文章

贪吃小龙

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
优化 es 中 should 加 matchPhraseQuery 查询性能

通过分词效果很容易看出来，text类型，会根据自定义的analyzer进行分词处理，建立索引的作者的初衷是考虑到我们这个用户名称需要支持模糊查询，同时也支持准确查询。这里可能有的小伙伴不理解为啥，不直接建个索引，然后reindex下就行，搞这么麻烦，首先这里有前提条件，一个索引数据量很大，上亿，但真正要重建索引的数据很少，另外一点就是这个索引在实时用的，迁移的过程当中很难保证重建之后的索引数据状态，需要做许多额外的工作，可能比这个过程更加复杂，更加漫长。确认没问题之后，就可以重建下索引了。.........
复制链接

扫一扫