链接:https://www.nowcoder.com/questionTerminal/3959837097c7413a961a135d7104c314
Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Levenshtein Distance。
Ex:
字符串A:abcdefg
字符串B: abcdef
通过增加或是删掉字符”g”的方式达到目的。这两种方案都需要一次操作。把这个操作所需要的次数定义为两个字符串的距离。
要求:
给定任意两个字符串,写出一个算法计算它们的编辑距离。
请实现如下接口
- 功能:计算两个字符串的距离
- 输入: 字符串A和字符串B
- 输出:无
- 返回:如果成功计算出字符串的距离,否则返回-1
这是典型的动态规划问题。
动态规划就是将多个阶段问题,分成类似的多个单阶段来解决。通过求解每个阶段的最优情况,来推算出整个阶段的最优解。
就本题而言,求解两个字符串编辑距离,即两个字符串相等的最小代价。
所以每次比较两字符串,如果当前对应字符相同则没有代价;
否则,会有插入、删除、替换的代价。
对任意A串的第i个字符,B串的第j个字符的动态规划方程:
F(i,j) = min (F(i,j-1) + Cost,F(i-1,j)+Cost,F(i-1,j-1)+Cost)
在F(i-1,j-1)时,要对当前字符比较是否相同,若相同则Cost = 0,不同Cost=1。
代码实现:
#include <iostream>
#include <vector>
#include <string>
#include <algorithm>
using namespace std;
int calStringDistance(string a, string b)
{
if (a.empty() || b.empty())
return max(a.size(), b.size());
int lena = a.size();
int lenb = b.size();
vector<vector<int> > dp(1 + lena, vector<int>(1 + lenb, 0));
for (int i = 0; i <= lena; i++) dp[i][0] = i;
for (int i = 0; i <= lenb; i++) dp[0][i] = i;
for (int i = 1; i <= lena; i++){
for (int j = 1; j <= lenb; j++){
// 判断第i个字符与第j个字符是否相等
if (a[i - 1] == b[j - 1]){
dp[i][j] = min(dp[i - 1][j], dp[i][j - 1]) + 1;
// 两字符相等时,dp[i-1][j-1]编辑距离不变
dp[i][j] = min(dp[i][j], dp[i - 1][j - 1]);
}
else{
// 如果字符不匹配,则取删除,插入,替换中最小的距离
dp[i][j] = min(dp[i-1][j], dp[i][j - 1]) + 1;
dp[i][j] = min(dp[i][j], dp[i - 1][j - 1] + 1);
}
}
}
return dp[lena][lenb];
}
int main(){
string a, b;
while (cin >> a >> b)
cout << calStringDistance(a, b) << endl;
return 0;
}