编辑距离之动态规划算法

最新推荐文章于 2024-04-16 20:21:03 发布

guorain32188

最新推荐文章于 2024-04-16 20:21:03 发布

阅读量3.8k

点赞数 1

分类专栏：自然语言处理文章标签：编辑距离 Levenshtein距离

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/guorain32188/article/details/12993427

版权

在自然语言处理中，经常需要比较段落句子之间的相似度，其中广泛使用的方法有空间向量模型、编辑距离方法。这里，重点说一下编辑距离算法，又叫Levenshtein距离。编辑距离的基本思想：对于字符串A，最少经过几次增、删、改操作可以变为字符串B，其中操作的次数便是A和B之间的编辑距离。

如：

A: aaabbb

B: aacb

需要把B中的c改为a，并在后面加入两个b，因此其编辑距离为3。

上面的操作是针对于英文字符串的，对于汉字组成的句子，则需要把最小编辑单位确定为单个字。

求编辑距离可以使用动态规划的思想。

有字符串A（0...i）, B（0...j）。构建i+2行，j+2列的矩阵，对第一行依次赋值为0...j, 对第一列依次赋值为0...i。

依次对字符串A的0...i和B的0...j进行比较，并填充到矩阵中，其计算公式如下：

M[i][j] = Min(M[i-1][j]+1, M[i][j-1]+1, A[i]==B[j]?M[i-1][j-1]:M[i-1][j-1]+1)

这个递推式不难理解，既是在通过增加一个字符或修改一个字符间找到一个最小的最为当前求解问题的解。这样就可以一步一步求解子问题，最终得出问题的解。

算法Java程序如下：

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
编辑距离之动态规划算法

在自然语言处理中，经常需要比较段落句子之间的相似度，其中广泛使用的方法有空间向量模型、编辑距离方法。这里，重点说一下编辑距离算法，又叫Levenshtein距离。编辑距离的基本思想：对于字符串A，最少经过几次增、删、改操作可以变为字符串B，其中操作的次数便是A和B之间的编辑距离。如：A: aaabbbB: aacb需要把B中的c改为a，并在后面加入两个b，因此其编辑距离为
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。