问题描述
给定一个长度为m和n的两个字符串,设有以下几种操作:替换(R),插入(I)和删除(D)。寻找到转换一个字符串插入到另一个需要修改的最小操作数量。这个数量就可以被视为最小编辑距离。如:acd与ace的距离为1,abc与cab的距离为1。
利用动态规划算法求解编辑距离问题。给定两个字符串,求由一个转成另一个所需要的最少编辑操作次数。
例子如下:
A\B | a | b | c | e | |
---|---|---|---|---|---|
0 | 1 | 2 | 3 | 4 | |
a | 1 | ----- | ----- | ----- | ----- |
c | 2 | ----- | ----- | ----- | ----- |
e | 3 | ----- | ----- | ----- | ----- |
f | 4 | ----- | ----- | ----- | ----- |
在5X5的列表中,s[i][j]表示:字符串A前i个字符与字符串B前j个字符的最短编辑距离。求最小编辑距离就是把这个列表填写完,s[4][4]的值即为所求的最小编辑距离。
思路
- 1.当Ai和Bj的末尾字符A[i]==B[j]时,对末尾字符不需要进行编辑,
diff = 0,step[i][j] = step[i-1][j-1] - 2.当Ai和Bj的末尾字符A[i]!=B[j]时,需要对其中之一的末尾进行编辑,
diff = 1- 2.1先A[i-1]->B[j]再A[i]->B[j]
step[i][j] = step[i-1][j]+diff - 2.2先A[i]->B[j-1]再A[i]->B[j]
step[i][j] = step[i][j-1]+diff - 2.3先A[i-1]->B[j-1]再A[i]->B[j]
step[i][j] = step[i-i][j-1]+diff
取三种操作的最小值,就是Ai->Bj的最小编辑距离
step[i][j] = min(step[i-1][j], step[i][j-1], step[i-i][j-1])+diff
- 2.1先A[i-1]->B[j]再A[i]->B[j]
- 3.特殊情况,
if(A == null)
step[0][j] = j
if(B == null)
step[i][0] = i - 4.最后step[len(A)][len(B)]即为A->B的最小标记距离。
填写s[1]过程:
A[1]==B[1],s[1][1]=min(s[1][0],s[0][0],s[0][1])+0=0
A[1]!=B[2],s[1][2]=min(s[1][1],s[0][1],s[0][2])+1=1
A[1]!=B[3],s[1][3]=min(s[1][2],s[0][2],s[0][3])+1=2
A[1]!=B[4],s[1][4]=min(s[1][3],s[0][3],s[0][4])+1=3
A\B | a | b | c | e |
---|