edit distance---计算2个单词之间的距离

        在模糊匹配的时候,即使用户输入的单词错了,我们最好也能返回一些候选的结果给用户。这样就少不了需要一个算法来计算2个单词之间的距离。距离越近,我们认为这个单词更符合用户的输入。

        计算2个单词之间的距离可以参考: http://en.wikipedia.org/wiki/Edit_distance

        edit distance定义成:把一个单词,修改成另一个单词需要进行的最少操作步骤,定义为这2个单词之间的距离。其中操作步骤只能是以下3种选择

          1,插入一个字母

          2,删除一个字母

          3,替换一个字母


如何计算2个单词之间的距离,基本流程如下:

1,设置2个单词   str1  长度为 n

                                str2 长度为 m

2, 如果n==0,距离为m。 反过来,如果m==0, 距离为n

3,创建一个n*m的矩阵t,对矩阵进行填值。

4,定义2个单词的各个字母之间的cost,如果2个字母相等,cost为 0, 如果不等cost为 1。

      所以 cost(i,j) =  if str1[i] == str2[j]   then 0

                                          else  1

5, 对矩阵的各个位置进行赋值。每个矩阵的值为下面3个值中的最小值:

        a =  t [ i-1, j ] + 1

         b = t [ i, j-1] + 1

         c =  t [ i-1, j-1 ] + cost( i, j )

       t [ i, j ] = min( a, b, c )

6, 当把整个矩阵的值都填完了后, t [ n, m ] 就是2个单词的距离。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值