编辑距离

编辑距离可以被用于计算文本的相似性以及用于文本纠错,简单的理解就是将一个字符串转换到另一个字符串所需要的代价(cost),付出的代价越少表示两个字符串越相似,编辑距离越小,从一个字符串转换到另一个字符串简单的归纳可以有以下几种操作,1、删除(delete)2、插入(insert)3、修改(update),其中删除和插入的代价可以认为是等价的。

  两个符号串的模式A和B之间的编辑距离表示为D(A,B),D(A,B)定义为由模式A向模式B转换的过程中需要改变的符号的个数C、插入的符号个数I和删除的符号个数R的总和的最小值

    D(A,B)=MIN[C(j)+I(j)+R(j)]

其中j包含有A到B所有符号改变的可能组合,有多种方式可以实现一位的转换。我们再利用动态规划方法来计算上式中的最小值,利用DP(dynamic programming)来计算最优路径的第一步是根据具体问题规定节点转移约束。每个节点(i.j)可以通过三个前序节点到达,即:(i-1,j),(i-1,j-1),(i,j-1)与三个前序节点相关的代价是

对角线转移:

d(i,j|(i-1,j-1)=0当r(i)=t(j)或者=1当r(i)!=t(j)

也就是说,如果对应于节点(i,j)的符号相同,则转移代价为0,如果不同,则为1。

水平和垂直转移:

d(i,j|(i-1,j-1)=d(i.j|i,j-1)=1

水平转移的意思是通过在符号串中插入符号,使两个模式对齐。垂直转移也增加代价,因为符号需要删除。

计算编辑距离的算法:

D(0,0)=0

for i=1to I

--D(i,0)=D(i-1,0)+1

end{for}

for j=1to J

--D(0,j)=D(0,j-1)+1;

end{for}

for i=1to I

--for(j=1 to J)

*c1= D(i-1,j-1)+d(i,j|i-1,j-1)

*c2=D(i-1,j)+1

*c3=D(i,j-1)+1

*D(i,j)=min(ca,c2,c3)

--end{for}

end{for}

D(A.B)=D(I,J)

   



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值