Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Levenshtein Distance。
Ex:
字符串A:abcdefg
字符串B: abcdef
通过增加或是删掉字符”g”的方式达到目的。这两种方案都需要一次操作。把这个操作所需要的次数定义为两个字符串的距离。
要求:给定任意两个字符串,写出一个算法计算它们的编辑距离。
代码实现:
#include<iostream>
#include<algorithm>
#include<string>
#include<vector>
using namespace std;
int calDis(string str1, string str2)
{
if (str1.empty() || str2.empty()) //两个字符串有一个是空的情况
return (str1.length() + str2.length());
int lenA = str1.length()+ 1;
int lenB = str2.length() + 1;
vector<vector<int>> F(lenA, vector<int>(lenB, 0));
for (int i = 0; i < lenA; ++i)// 计算一个字符串相对空字符串的编辑距离,填入矩阵
F[i][0] = i;
for (int j = 0; j < lenB; ++j)
F[0][j] = j;
for (int i = 1; i < lenA; ++i) //非空时参考之前的编辑距离进行计算
{
for (int j = 1; j < lenB; ++j)
F[i][j] = min(min(F[i - 1][j] + 1, F[i][j - 1] + 1), F[i - 1][j - 1] + (str1[i - 1] == str2[j - 1] ? 0 : 1));
}
return F[lenA - 1][lenB - 1];
}
int main()
{
string str1, str2;
while (cin >> str1 >> str2)
{
cout << calDis(str1, str2)<<endl;
}
return 0;
}
主要理解来自:https://www.jianshu.com/p/9a53f32cf62b
自己的理解:
参考这张图,黑色数字的行和列分别表示,其中一个字符串相对于另一个空字符串的编辑距离,红色部分表示两个字符串均非空的情况;
对公式:if i ≥ 1 且 j ≥ 1 ,edit(i, j) == min{ edit(i-1, j) + 1, edit(i, j-1) + 1, edit(i-1, j-1) + d(i, j) }
前两个公式是认为,不管行和列,只要增加一个字符,默认编辑距离就+1,但是第三个就对比了一下新增加的字符是否相同,如果相同,那就+0,不然就+1;这些都是在之前的编辑距离计算好的基础上+1或+0,故类似动态规划。