solr spellcheck 距离选取方案

重点:Damerau-Levenshtein


spellcheck本质上工作机制是两步:

1. ngram进行候选检索

2. 选取ngram打分最高的几个,进行距离计算,如果距离大于solrconfig或者请求参数中的accuracy配置项,就返回该纠错结果


之前沿用了默认配置项编辑距离,

<strname="distanceMeasure">org.apache.lucene.search.spell.LevensteinDistance</str>

即插入、删除、替换都对距离加一


这导致了:

搜pool,无法纠错出polo,因为我们的accuracy是0.7,那pool和polo的编辑距离是2,所以他们的相似度是1-2/(max(4,4)),即0.5


而根据用户的输入情形,两个字符的mis-transform,即字符换位是很常见的一种情况,它对应的距离不应该加2,而应该与删除或者插入同等对待


正当我在考虑怎么写这个算法的时候,发现Lucene早就帮我想好了,

LuceneLevenshteinDistance

它计算的是 Damerau - Levenshtein

即插入、删除、交换的距离都是1

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值