字符串之间的距离——DP解决

字符串之间的距离

设有字符串X,我们称在X的头尾及中间插入任意多个空格后构成的新字符串为X的扩展串,如字符串X为“abcbcd”,则字符串“abcb□cd”,“□a□bcbcd□”和“abcb□cd□”都是X的扩展串,这里“□”代表空格字符。 如果A1是字符串A的扩展串,B1是字符串B的扩展串,A1与B1具有相同的长度,那么我们定义字符串A1与B1的距离为相应位置上的字符的距离总和,而两个非空格字符的距离定义为它们的ASCII码的差的绝对值,而空格字符与其它任意字符之间的距离为已知的定值K,空格字符与空格字符的距离为0。在字符串A、B的所有扩展串中,必定存在两个等长的扩展串A1、B1,使得A1与B1之间的距离达到最小,我们将这一距离定义为字符串A、B的距离。 请你写一个程序,求出字符串A、B的距离。
►输入:

第一行为字符串A
第二行为字符串B 注: A、B均由小写字母组成且长度均不超过2000
第三行为一个整数K 注:1≤K≤100,表示空格与其它字符的距离。
►输出:

仅一行,包含一个整数,表示所求得的字符串A、B的距离。
样例输入:
cmc
snmn
2
样例输出:
10
这道题才真正让我领会到了DP的精髓,写博客以记之。
首先我们对题目进行理解,对于X字符串和Y字符串而言,第一个比较的其实只有三种情况:
(1)X的第一位X[0]与Y的第一位Y[0]
(2)X的第一位X[0]与插入到Y前的□
(3)插入到Y前的□与Y的第一位Y[0]
注意:空格与空格的比较只会增加结果,且对后面的串没有影响,故而不存在空格与空格的比较。

这样,我们就能写出这个题第一种递归解法:

#include<bits/stdc++.h>
using namespace std;
int k;
int NUM(string x,string y)
{
    if(x.size()==0&&y.size()!=0)
        return y.size()*k;
    if(y.size()==0&&x.size()!=0)
        return x.size()*k;
    if(y.size()==0&&x.size()==0)
        return 0;
    int ans1,ans2,ans3;
    ans1=abs(x[0]-y[0])+NUM(x.substr(1,x.size()-1),y.substr(1,y.size()-1));
    ans2=k+NUM(x.substr(1,x.size()-1),y);
    ans3=k+NUM(x,y.substr(1,y.size()-1));
    int minn=min(ans1,ans2);
    minn=min(minn,ans3);
    return minn;
}
int main()
{
    string a,b;
    cin>>a;
    cin>>b;
    cin>>k;
    cout<<NUM(a,b)<<endl;
    return 0;
}

注意,递归写法的时间复杂度太高,当字符串太长的时候往往会超时。那么能不能换一种时间复杂度低的算法呢?我们可以观察一下,其实这个问题里有很多子问题。就上边列出的三种情况,其又分别都有三个子问题……我们建立一个二维数组dp,dp[i][j]代表X的前i位组成的字符串与Y代表的前j位组成的字符串之间的距离。自下而上的遍历,我们可以写出状态转移方程:
dp[i][j]=min(dp[i-1][j-1]+abs(a[i]-b[j]),dp[i-1][j]+k,dp[i][j-1]+k);
有两点要注意:
(1)初始化,dp[0][0]=0,dp[0][j]=j个k,dp[i][0]=i个k;
(2)因为字符串默认从0开始计数,而我们这里从1开始计数,故而求abs(a[i]-b[j])时,其实应该写的是abs(a[i-1]-b[j-1])。

#include<bits/stdc++.h>
using namespace std;
int main()
{
    string a,b;
    cin>>a;
    cin>>b;
    int k;
    cin>>k;
    int len1=a.size();
    int len2=b.size();
    int dp[len1+1][len2+1];
    memset(dp,0,sizeof(dp));
    dp[0][0]=0;
    for(int i=1;i<=len1;i++)
        dp[i][0]=dp[i-1][0]+k;
    for(int i=1;i<=len2;i++)
        dp[0][i]=dp[0][i-1]+k;
    for(int i=1;i<=len1;i++)
    {
        for(int j=1;j<=len2;j++)
        {
            int num1,num2,num3;
            num1=dp[i-1][j-1]+abs(a[i-1]-b[j-1]);
            num2=dp[i-1][j]+k;
            num3=dp[i][j-1]+k;
            dp[i][j]=min(num1,num2);
            dp[i][j]=min(dp[i][j],num3);
        }
    }
    cout<<dp[len1][len2]<<endl;
    return 0;
}
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Levenshtein Distance算法是一种常见的字符串相似度算法,也被称为编辑距离算法。其主要思想是通过计算两个字符串之间的编辑距离来确定它们的相似程度。 编辑距离指的是将一个字符串转换成另一个字符串所需的最少操作次数,其中每次操作可以是插入、删除或替换一个字符。例如,将字符串“kitten”转换成字符串“sitting”需要进行3次操作,即将“k”替换为“s”,将“e”替换为“i”,将“n”替换为“g”。 Levenshtein Distance算法的实现一般使用动态规划的方法,通过填充一个二维矩阵来计算两个字符串之间的编辑距离。具体实现过程可以参考以下伪代码: ``` function LevenshteinDistance(s1, s2): m = length(s1) n = length(s2) d = new matrix(m+1, n+1) for i from 0 to m: d[i, 0] = i for j from 0 to n: d[0, j] = j for j from 1 to n: for i from 1 to m: if s1[i] == s2[j]: cost = 0 else: cost = 1 d[i, j] = min(d[i-1, j]+1, d[i, j-1]+1, d[i-1, j-1]+cost) return d[m, n] ``` 在以上代码中,变量s1和s2分别表示两个待比较的字符串,m和n分别表示它们的长度,矩阵d用于存储编辑距离的计算结果。首先,将矩阵d的第一行和第一列分别初始化为0到n和0到m的整数。然后,对于每个(i, j)位置,如果s1[i]等于s2[j],则将cost设为0,否则设为1。最后,根据递推公式d[i, j] = min(d[i-1, j]+1, d[i, j-1]+1, d[i-1, j-1]+cost)来填充矩阵d,并返回d[m, n]作为编辑距离的结果。 Levenshtein Distance算法的时间复杂度为O(m*n),其中m和n分别为两个字符串的长度。在实际应用中,该算法可用于拼写检查、数据去重等场景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值