设A和B是2个字符串。要用最少的字符操作将字符串A转换为字符串B。这里所说的字符操作包括:
(1)删除一个字符;
(2)插入一个字符;
(3)将一个字符改为另一个字符。
将字符串A变换为字符串B所用的最少字符操作数称为字符串A到B的编辑距离
dp[i][j]表示源串S[0...i]到目标串T[0...j]的最短编辑距离,则dp[i][0]=i;dp[0][j]=j;
dp[i][j]=min{dp[i-1][j]+1,dp[i][j-1]+1,dp[i-1][j-1]+(S[i]==T[i]?0:1)}
int editDistance()
{
int i,j,la,lb;
la=strlen(a),lb=strlen(b);
for(i=0;i<=la;i++)
{
for(j=0;j<=lb;j++)
{
if(i==0) dp[i][j]=j;
else if (j==0) dp[i][j]=i;
else
{
int f=a[i-1]==b[j-1]?0:1;
dp[i][j]=min(min(dp[i-1][j]+1,dp[i][j-1]+1),dp[i-1][j-1]+f);
}
}
}
return dp[la][lb];
}
传统的编辑距离里面有三种操作,即增、删、改,我们现在要讨论的编辑距离只允许两种操作,即增加一个字符、删除一个字符。我们求两个字符串的这种编辑距离,即把一个字符串变成另外一个字符串的最少操作次数。
分析:求出两个字符串的最长公共子序列,则次数为:A的长度+B的长度-最大子序列长度*2
int lcs()
{
int i,j,la,lb;
la=strlen(a),lb=strlen(b);
for(i=0;i<=la;i++)
{
for(j=0;j<=lb;j++)
{
if(i==0||j==0) dp[i][j]=0;
else if(a[i-1]==b[j-1])
dp[i][j]=dp[i-1][j-1]+1;
else dp[i][j]=max(dp[i-1][j],dp[i][j-1]);
}
}//dp[la][lb]:最长公共子序列
return la+lb-2*dp[la][lb];
}
不能用替换时则操作变为增+删两种
int LeditDistance()
{
int i,j,la,lb;
la=strlen(a);
lb=strlen(b);
for(i=1;i<=la;i++)
dp[i][0]=i;
for(j=1;j<=lb;j++)
dp[0][j]=j;
for(i=1;i<=la;i++)
{
for(j=1;j<=lb;j++)
{
if(a[i-1]==b[j-1]) dp[i][j]=dp[i-1][j-1];
else dp[i][j]=min(dp[i-1][j],dp[i][j-1])+1;
}
}
return dp[la][lb];
}