【NLP】最小编辑距离

用例

问:最少操作多少次可以把字符串T变为S?
例:S=“ABCF”,T=“DBFG”
则可以

  1. 把D替换为A
  2. 删掉G
  3. 插入C

最短编辑距离概念

给定两个字符串S和T,对于T,我们允许如下三个操作

  • 在任意位置添加任一字符
  • 删除存在的任一字符
  • 修改任一字符

将字符串T转换成成字符串S所使用的操作次数就是编辑距离,其中,最少的操作次数就是最短编辑距离(Min Edit Distance)

算法逻辑详解

向S和T中分别插入字符-,使得两个字符串相同字符尽量对齐,且两个字符串最终长度相同

在这里插入图片描述

  1. 如果S,T对应位置都是相同的普通字符,则不扣分,如位置2、4
  2. 如果S,T对应位置都是普通字符但不相同,则扣1分(对应修改操作),如位置1
  3. 如果S的位置为-,但是T位置是不同字符,则扣1分(对应删除操作),如位置5
  4. 如果S的位置为普通字符,但是T位置为-,则扣1分(对应增加操作),如位置3

设f(i, j)表示字符串S的前i位和T的前j位对齐后的最少扣分,则最后一位的对齐情况为

  1. 当S[i] == T[j] 时,前i-1和j-1位已经完成对齐,此时最小扣分为f(i-1, j-1)
  2. 当S[i] != T[j]时,此时最少扣分为f(i-1, j-1)+1
  3. 当S前i位和T的前j-1位已经对齐,此时最少扣分为f(i, j-1)+1
  4. 当S前i-1位和T的前j位对齐,此时最少扣分为f(i-1, j)+1

定义一个函数same(i, j),如果S[i] == T[j]则为0表示不扣分,否则为1也就是扣分,此时f的递推表达式如下

f(i, j) = min{ f(i-1, j-1)+same(i-1, j-1), f(i-1, j)+1, f(i, j-1)+1}

初始值:f(0, j) = j, f(i, 0) = i

动态规划算法

定义一个矩阵dp[m][n], 其中m=len(string1)+1,n=len(string2)+1,+1是为了避免长度为0;dp[i][j]为string1的前i个字符构成的字符串,与string2的前j个字符构成的字符串的编辑距离。

插入操作:在string1的前i个字符后插入一个新的字符,使得插入的字符等于新加入的string2[j],插入操作对于string1来说,i没有前进,但是对于string2来说,j前进了一位,也就是说,dp[i][j] = dp[i]dp[j-1]+1

删除操作:在string1的第i个字符后删除一个字符,使得删除后的字符串string1[:i-1]与word[:j]相同,那么删除操作对于原string2来说,j没有前进,但是i前进了一位,也就是说,dp[i][j] = dp[i-1][j]+(0/1)

伪代码

# 初始化过程
for j=0 to n do
	f[j] =  j
endfor

# 连续处理
for i=1 to m do
	last = f[0]
	f[0] = i
	for j=1 to n do
		temp = f[i, j]
		f[i, j] = min(last+same(i, 1), remp+1, temp+1, f[j-1]+1)
		last = temp
	endfor
endfor

算法代码

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值