【elasticsearch实现词重复,文档长度不影响匹配度】

elasticsearch实现词重复,文档长度不影响匹配度

前言

搜索场景要求:

  1. 关键词重复出现不影响匹配度【默认重复匹配度会提高】
  2. 记录的文档长度不影响匹配度【默认文档越短,匹配度越高】

BM25(默认)

Elasticsearch 在 5.4 版本之后,针对文本类型的字段,默认采用的是 BM25 评分模型,而不是基于 tf-idf 的向量空间模型,它其实也是基于 tf-idf 模型进行优化出来的模型,主要增加了可以控制词频结果在词频饱和度中的上升速度的参数 k1 和 字段平均文档长度相关的控制字段长度归一值的参数 b;BM25 适合短文本的字段。

可设置的参数具体如下:

k1:控制非线性词频的归一标准化,默认为 1.2。
b:基于 tf 值针对文档长度进行归一标准化的控制参数,默认为 0.75
discount_overlaps:确定在计算归一标准化时,是否忽略重叠的 token(位置增量为 0 的 token)。默认情况下为 true,这意味着重叠 token 在计算归一标准化时,不计算在内。

相关资料: 深入理解 es 相似度算法(相关性得分计算)

所以要实现搜索场景要求,需要这样配置:

PUT test_2
{
  "settings": {
    "similarity": {
      "default": { 
        "type": "BM25", 
        "k1": 0,   # 这里设置0才能不影响匹配度而不是1
        "b": 0,	# 这里设置0才能不影响匹配度
        "discount_overlaps": false
      }
    }
  },
  "mappings": {
    "properties": {
      "name": {
        "type": "text",
        "analyzer" : "ik_max_word"
      },
      "status": {
        "type": "short"
      },
      "update_time": {
        "type": "long"
      }
    }
  }
}

索引重建

改匹配度没办法直接修改索引,所以需要重建索引,reindex过去,reindex很快,代码如下:

POST _reindex
{
  "source": {
    "index": "test_1" # 这里是老索引
  },
  "dest": {
    "index": "test_2" # 这里是改匹配度后的索引 得先创建修改匹配度后的索引  再reindex
  }
}
  • 7
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值