自然语言处理(五)——单词纠错

一、概念

编辑距离(Edit Distance):是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。

精准的定义就不多说了,直接上例子来理解这个编辑距离。编辑主要有三个操作:插入、删除、修改。例如:goood变为good,只需要删除一个o,因此编辑距离是1。gd变为god。只需要插入一个o,因此编辑距离是1。gwd变为god,只要修改w为o,因此编辑距离是1。

cutoff编辑距离(cut-off Edit Distance):  官方的概念我就不粘贴过来了,直接举个例子来说明什么是cutoff编辑距离。

例子如下:Y字符串是正确的字符串的一部分,X字符串是错误的字符串。两个字符串是从o开始不一样的。

计算cutoff编辑距离的过程:

(1)  令 n = length(Y)  (n为Y字符串的长度)显然这里的n=4。令m = length(X) ,显然这里的m=7。

(2)  令low = max(1,n-t)  t是阈值,这里的不妨令t=2。令up &#

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值