编辑距离可以被用于计算文本的相似性以及用于文本纠错,简单的理解就是将一个字符串转换到另一个字符串所需要的代价(cost),付出的代价越少表示两个字符串越相似,编辑距离越小,从一个字符串转换到另一个字符串简单的归纳可以有以下几种操作,1、删除(delete)2、插入(insert)3、修改(update),其中删除和插入的代价可以认为是等价的。
两个符号串的模式A和B之间的编辑距离表示为D(A,B),D(A,B)定义为由模式A向模式B转换的过程中需要改变的符号的个数C、插入的符号个数I和删除的符号个数R的总和的最小值
D(A,B)=MIN[C(j)+I(j)+R(j)]
其中j包含有A到B所有符号改变的可能组合,有多种方式可以实现一位的转换。我们再利用动态规划方法来计算上式中的最小值,利用DP(dynamic programming)来计算最优路径的第一步是根据具体问题规定节点转移约束。每个节点(i.j)可以通过三个前序节点到达,即:(i-1,j),(i-1,j-1),(i,j-1)与三个前序节点相关的代价是
对角线转移:
d(i,j|(i-1,j-1)=0当r(i)=t(j)或者=1当r(i)!=t(j)
也就是说,如果对应于节点(i,j)的符号相同,则转移代价为0,如果不同,则为1。
水平和垂直转移:
d(i,j|(i-1,j-1)=d(i.j|i,j-1)=1
水平转移的意思是通过在符号串中插入符号,使两个模式对齐。垂直转移也增加代价,因为符号需要删除。
计算编辑距离的算法:
D(0,0)=0
for i=1to I
--D(i,0)=D(i-1,0)+1
end{for}
for j=1to J
--D(0,j)=D(0,j-1)+1;
end{for}
for i=1to I
--for(j=1 to J)
*c1= D(i-1,j-1)+d(i,j|i-1,j-1)
*c2=D(i-1,j)+1
*c3=D(i,j-1)+1
*D(i,j)=min(ca,c2,c3)
--end{for}
end{for}
D(A.B)=D(I,J)