一个字符串A通过删除,插入,替换三种方式变换成另一个字符串B所需要的最少操作步骤即为编辑距离,如
A = abcdefg
B = aacdef
将g删除,b替换成a,这两个步骤可以将A转换成B。所以编辑距离为2。
这个其实是一个典型的动态规划问题
d
p
[
i
]
[
j
]
=
{
0
i
=
0
,
j
=
0
i
i
>
0
,
j
=
0
j
j
>
0
,
i
=
0
m
i
n
(
d
p
[
i
−
1
]
[
j
]
+
1
,
d
p
[
i
]
[
j
−
1
]
+
1
,
d
p
[
i
−
1
]
[
j
−
1
]
+
f
l
a
g
)
f
l
a
g
=
{
0
A
[
i
]
=
B
[
j
]
1
A
[
i
]
≠
B
[
j
]
dp[i][j]=\left\{\begin{matrix} 0 & i=0,j=0\\ i & i>0,j=0\\ j & j>0,i=0\\ min\left ( dp[i-1][j]+1,dp[i][j-1]+1,dp[i-1][j-1]+flag \right ) & flag=\left\{\begin{matrix} 0 & A[i]=B[j]\\ 1 & A[i]\neq B[j] \end{matrix}\right. \end{matrix}\right.
dp[i][j]=⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧0ijmin(dp[i−1][j]+1,dp[i][j−1]+1,dp[i−1][j−1]+flag)i=0,j=0i>0,j=0j>0,i=0flag={01A[i]=B[j]A[i]=B[j]
其中
d
p
[
i
−
1
]
[
j
]
dp[i-1][j]
dp[i−1][j]表示删除
A
[
i
]
A[i]
A[i]后的编辑距离,
d
p
[
i
]
[
j
−
1
]
dp[i][j-1]
dp[i][j−1]表示删除
B
[
j
]
B[j]
B[j]后的编辑距离(其实删除和插入是相对的,这里删除其实也可以当作插入),
d
p
[
i
−
1
]
[
j
−
1
]
dp[i-1][j-1]
dp[i−1][j−1]表示两种方式,一个是
A
[
i
]
=
=
B
[
j
]
A[i]==B[j]
A[i]==B[j],这样就不需要任何操作,另一种方式表示
A
[
i
]
≠
B
[
j
]
A[i] \neq B[j]
A[i]=B[j],这样可以使用一个替换操作,将
A
[
i
]
A[i]
A[i]替换为
B
[
j
]
B[j]
B[j]
def edit_distance(A,B):
dp = [[i+j for j in range(len(B)+1)] for i in range(len(A)+1)]
for i in range(1,len(A)+1):
for j in range(1,len(B)+1):
flag = 0 if A[i-1] == B[j-1] else 1
dp[i][j] = min(dp[i-1][j]+1,dp[i][j-1]+1,dp[i-1][j-1]+flag)
return dp[-1][-1]
A = 'abcdefg'
B = 'aacdefcg'
print edit_distance(B,A)