最小编辑距离算法

最小编辑距离算法

简介:
通俗地来讲,编辑距离指的是在两个单词<w_1,w_2>之间,由其中一个单词w_1转换为另一个单词w_2所需要的最少单字符编辑操作次数。
定义的单字符编辑操作有三种, 每种操作的权重为1:

  • 插入(Insertion)

  • 删除(Deletion)

  • 替换(Substitution)

假设求取字符串A和B 的 edit distance, 上述操作可理解为:

  • 删除A末尾一个字符(deletion)
  • 用B末尾插入A末尾一个字符(insertion)
  • 把A末尾字符替换成B末尾的一个字符(substitution)

公式定义:
我们将两个字符串 a,b 的 Levenshtein Distance 表示为lev_{a,b}(|a|, |b|),其中|a||b| 分别对应a,b 的长度。那么,在这里lev_{a,b}(|a|, |b|) 可用如下的数学语言描述:
在这里插入图片描述lev_{a,b}(i, j)指的是 a 中前 i 个字符和 b 中前 j 个字符之间的距离。为了方便理解,这里的i,j可以看作是a,b的长度。这里的字符串的字符 index 从 1 开始,因此最后的编辑距离便是i = |a|, j = |b|时的距离:lev_{a,b}(|a|, |b|)

min(i, j) = 0的时候,对应着a 中前 i 个字符和 b 中前 j 个字符,此时的 i,j 有一个值为 0 ,所以它们之间的距离为max(i, j),即 i,j 中的最大者。

min(i, j) != 0 的时候,lev_{a,b}(|a|, |b|) 为如下三项的最小值:
1.lev_{a,b}(i-1, j)表示 删除 a_i
2.lev_{a,b}(i, j-1)表示 插入 b_j
3.lev_{a,b}(i-1, j-1)+1_{(a_i != b_j)} 表示 替换 b_j

1_{(a_i != b_j)} 为一个指示函数,表示当a_i = b_j的时候取 0 ;当a_i != b_j的时候,其值为 1。

过程图示:
有如下动态规划公式:

if i == 0 且 j == 0,edit(i, j) = 0
if i == 0 且 j > 0,edit(i, j) = j
if i > 0 且j == 0,edit(i, j) = i
if i ≥ 1  且 j ≥ 1 ,edit(i, j) == min{ edit(i-1, j) + 1, edit(i, j-1) + 1, edit(i-1, j-1) + f(i, j) },当第一个字符串的第i个字符不等于第二个字符串的第j个字符时,f(i, j) = 1;否则,f(i, j) = 0。

在这里插入图片描述
计算edit(1, 1),edit(0, 1) + 1 == 2,edit(1, 0) + 1 == 2,edit(0, 0) + f(1, 1) == 0 + 1 == 1,min(edit(0, 1),edit(1, 0),edit(0, 0) + f(1, 1))==1,因此edit(1, 1) == 1。 依次类推:

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值