LCS和ED

最新推荐文章于 2023-12-30 02:57:11 发布

lairifangc

最新推荐文章于 2023-12-30 02:57:11 发布

阅读量149

点赞数

分类专栏：动态规划文章标签：动态规划 LCS ED

本文链接：https://blog.csdn.net/lairifangc/article/details/79946160

版权

动态规划专栏收录该内容

1 篇文章 0 订阅

订阅专栏

LCS和ED

LCS(最长公共子序列）和ED（edit distance)是动态规划的两个经典模型，因为要用到二维的dp数组，所以我在初学时理解起来很困难，为加深理解和防止遗忘特地写成博客防止遗忘。两者性质相似，写在一起方便整理。两个都能计算数组和字符串，这里为方便书写，都写成数组。

LCS

LCS(最长公共子序列）就是字面意思,即两个串中完全相同的部分。
状态转移方程：
dp[i][j]=max{dp[i-1][j-1]+1(s[i]=t[j]),dp[i-1][j],dp[i][j-1]}
s和t两个串中，分别以s[i]和t[j]结尾的子串的LCS的长度为dp[i][j],其长度分为以下几种情况：

s[i]=t[j]
若两个子串末尾相同，则dp[i][j]就等于以s[i-1]和t[j-1]为结尾的子串的LCS长度加1，即dp[i][j]=dp[i-1][j-1]+1;
s[i]!=t[j]
若两个子串末尾不同，则dp[i][j]就等于以s[i]和t[j-1]为结尾的子串的LCS和以s[i-1]和t[j]为结尾的子串的LCS的长度的最大值。

我在初学时很难理解——为什么只通过判断子串结尾就能确定两子串的LCS呢？但仔细研究就会发现，在算dp[i][j]的过程中，因为从1开始遍历，dp[i][j]经过不断的累加,实际调用的dp[i-1][j-1]之类的的时候相当于s[i]和t[j]之前的所有都已经变成完全相同的东西，比较大小是否相同只是为了确认现有的LCS会变得更长（s[i]=t[j]),还是不变化（s[i]!=t[j])。理解了这一点就简单多了。

代码：

#include<bits/stdc++.h>
using namespace std;
int t[105],s[105],dp[105][105],n,m;
int main(){
    scanf("%d%d",&n,&m);
    for(int i=1;i<=n;i++)scanf("%d",&s[i]);
    for(int i=1;i<=m;i++)scanf("%d",&t[i]);
    for(int i=1;i<=n;i++)
        for(int j=1;j<=m;j++){
            if(s[i]==t[j])dp[i][j]=dp[i-1][j-1]+1;
            else dp[i][j]=max(dp[i-1][j],d[i][j-1]);
        }
    printf("%d\n",dp[n][m]);
    return 0;
}

ED

ED(edit distance)意思是将一个串变为另一个串所需的最小修改次数。其大致思路和LCS一致，都是比较子串末尾来得到以s[i]和t[j]为结尾的子串变成完全相同所需的最小操作次数。操作内容包括删除添加和修改。

状态转移方程：

d p [i] [j] = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ d p [i - 1] [j] + 1 d p [i - 1] [j - 1], d p [i] [j - 1] + 1 d p [i - 1] [j - 1] + 1 删 除 s [i], s [i] = t [j] 插 入 t [j], 替 换 t [j] (2)

$\begin{equation} dp[i][j]=\left\{ \begin{array}{lrc} dp[i-1][j]+1 &删除s[i],\\ dp[i-1][j-1], & s[i]=t[j]\\ dp[i][j-1]+1 &插入t[j],\\ dp[i-1][j-1]+1 &替换t[j] \end{array} \right. \end{equation}$

s[i]=t[j]
末尾相同就不需要修改，修改次数就等于dp[i-1][j-1]。
s[i]!=t[j]
末尾不同就能分为3类，删掉一个、替换一个、和插入一个。不需要过多说明。

本题需要特殊处理的就是若有一个串的长度为0时，需要自己手动将dp[0][j]和dp[i][0]的大小手动定义为j和i。其余的不管是思路还是做法都和LCS大致相似。

代码：

#include<bits/stdc++.h>
using namespace std;
int t[105],s[105],dp[105][105],n,m;
int main(){
    scanf("%d%d",&n,&m);
    for(int i=1;i<=n;i++){
        scanf("%d",&s[i]);
        dp[i][0]=i;
    }
    for(int i=1;i<=m;i++){
        scanf("%d",&t[i]);
        dp[0][i]=i;
    }
    for(int i=1;i<=n;i++)
        for(int j=1;j<=m;j++){
            if(s[i]==t[j])dp[i][j]=dp[i-1][j-1];
            else dp[i][j]=min(dp[i-1][j],min(dp[i][j-1],dp[i-1][j-1]))+1;
        }
    printf("%d\n",dp[n][m]);
    return 0;
}

总之，LCS和ED作为两个经典模型，对类似的问题都有很大的启发作用，其思路值得深刻的理解，对今后dp的学习会有很大帮助。