【elasticsearch实现词重复，文档长度不影响匹配度】

渣渣俊

于 2024-07-27 11:39:47 发布

阅读量247

点赞数 7

文章标签： elasticsearch jenkins 大数据

本文链接：https://blog.csdn.net/qq_27756989/article/details/140732649

版权

elasticsearch实现词重复，文档长度不影响匹配度

前言
BM25（默认）
索引重建

前言

搜索场景要求：

关键词重复出现不影响匹配度【默认重复匹配度会提高】
记录的文档长度不影响匹配度【默认文档越短，匹配度越高】

BM25（默认）

Elasticsearch 在 5.4 版本之后，针对文本类型的字段，默认采用的是 BM25 评分模型，而不是基于 tf-idf 的向量空间模型，它其实也是基于 tf-idf 模型进行优化出来的模型，主要增加了可以控制词频结果在词频饱和度中的上升速度的参数 k1 和字段平均文档长度相关的控制字段长度归一值的参数 b；BM25 适合短文本的字段。

可设置的参数具体如下：

k1：控制非线性词频的归一标准化，默认为 1.2。
b：基于 tf 值针对文档长度进行归一标准化的控制参数，默认为 0.75。
discount_overlaps：确定在计算归一标准化时，是否忽略重叠的 token（位置增量为 0 的 token）。默认情况下为 true，这意味着重叠 token 在计算归一标准化时，不计算在内。

相关资料：深入理解 es 相似度算法（相关性得分计算）

所以要实现搜索场景要求，需要这样配置：

PUT test_2
{
  "settings": {
    "similarity": {
      "default": { 
        "type": "BM25", 
        "k1": 0,   # 这里设置0才能不影响匹配度而不是1
        "b": 0,	# 这里设置0才能不影响匹配度
        "discount_overlaps": false
      }
    }
  },
  "mappings": {
    "properties": {
      "name": {
        "type": "text",
        "analyzer" : "ik_max_word"
      },
      "status": {
        "type": "short"
      },
      "update_time": {
        "type": "long"
      }
    }
  }
}

索引重建

改匹配度没办法直接修改索引，所以需要重建索引，reindex过去，reindex很快，代码如下：

POST _reindex
{
  "source": {
    "index": "test_1" # 这里是老索引
  },
  "dest": {
    "index": "test_2" # 这里是改匹配度后的索引 得先创建修改匹配度后的索引  再reindex
  }
}

渣渣俊

关注

7
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【elasticsearch实现词重复，文档长度不影响匹配度】

关键词重复出现不影响匹配度【默认重复匹配度会提高】记录的文档长度不影响匹配度【默认文档越短，匹配度越高】
复制链接

扫一扫