编辑距离,又称Levenshtein距离(也叫做Edit Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
例如将kitten一字转成sitting:
sitten (k->s)
sittin (e->i)
sitting (->g)
所以kitten和sitting的编辑距离是3。俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念。
给出两个字符串a,b,求a和b的编辑距离。
分析:
这是一道比较经典并且不难的dp问题,由于要求的字符串最大长度为1000,所以我们可以很容易的想到开一个二维数组dp[i][j],表示的是第一个字符串的长度为i的子串与第二个字符串的长度为j的子串的编辑距离。这样问题就变得很简单了,我们先初始化可以看到的是dp[0][i] = i .
然后就是递推方程,很简单,就是dp[i][j] = min(dp[i-1][j]+1,min(dp[i][j-1]+1,dp[i-1][j-1]+d));其中要是str1[i] == str2[j] , d = 0 ;否则d = 1 ; 很简单
#include <iostream>
#include <cstdio>
#include <cstring>
#include <algorithm>
#include <cmath>
using namespace std;
int const maxn = 1005 ;
int dp[maxn][maxn];
char str1[maxn],str2[maxn];
int main()
{
while(scanf("%s %s",str1+1,str2+1)!=EOF)
{
int n1 = strlen(str1+1);
int n2 = strlen(str2+1);
memset(dp,0,sizeof(dp));
for(int i = 0 ; i <= n1 ; i++)
{
dp[i][0] = i ;
}
for(int i = 0 ; i <= n2 ; i++)
{
dp[0][i] = i ;
}
int d = 0 ;
for(int i = 1 ; i <= n1 ; i++)
{
for(int j = 1 ; j <= n2 ; j++)
{
if(str1[i]==str2[j])d = 0 ;
else d = 1 ;
dp[i][j] = min(dp[i-1][j]+1,min(dp[i][j-1]+1,dp[i-1][j-1]+d));
}
}
printf("%d\n",dp[n1][n2]);
}
return 0;
}