搜索引擎中的拼写纠错

本文探讨了在搜索引擎中如何进行拼写纠错,利用编辑距离的概念来衡量两个单词之间的转换次数,并介绍了如何优化搜索效率。提出了根据键盘布局预测误打概率的思路,以及在实际应用中采用贝叶斯公式来提高纠错准确性的方法。
摘要由CSDN通过智能技术生成

拼写纠错

更多内容: 我的github
首先引入编辑距离的概念,好了,懒得写了,做过力扣的应该都知道编辑距离这道很经典的动态规划题:

给定两个单词 word1 和 word2,计算出将 word1 转换成 word2 所使用的最少操作数 。

你可以对一个单词进行如下三种操作:

插入一个字符
删除一个字符
替换一个字符
示例 1:

输入: word1 = “horse”, word2 = “ros”
输出: 3
解释:
horse -> rorse (将 ‘h’ 替换为 ‘r’)
rorse -> rose (删除 ‘r’)
rose -> ros (删除 ‘e’)

示例 2:

输入: word1 = “intention”, word2 = “execution”
输出: 5
解释:
intention -> inention (删除 ‘t’)
inention -> enention (将 ‘i’ 替换为 ‘e’)
enention -> exention (将 ‘n’ 替换为 ‘x’)
exention -> exection (将 ‘n’ 替换为 ‘c’)
exection -> execution (插入 ‘u’)

那么我们就可以知道,如果用户输入的一个词的概率很小,我们认为他可能拼写错误,就在词典中寻找编辑距离最小的词进行替换

当然这可能导致较大的时间复杂度,毕竟你需要在整个词典中都搜索并计算编辑距离,这样的时间开销我们承受不住,你或许说可以使用分段分区搜索的思想,虽然这是一个可行的方法但还是有些不尽如人意。

那么我们还有另一种方法,就是生成编辑距离为1或2的字符串并进行过滤

生成字符串还算简单,但如何过滤是个问题。

抛开正解不谈,实际上我自己认为可以根据规则过滤,比如在24键键盘中,很容易误按出临近的一些字母,比如 o会按到p。我们可以为每一个字母设置替换概率字典,比如{o:{p:0.25,i:0.25,l:0.25,k:0.15,m:0.05 }}这样的,然后再选取在词典中出现概率较高的词得到最终的结果。

以上只是我的个人想法,在实际中还是会使用 贝叶斯公式

通俗来讲,贝叶斯就是通过先验概率得到后验概率的公式。这里以 apple为例。

正确: apple

用户1:app

用户2࿱

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值