LCS和ED
LCS(最长公共子序列)和ED(edit distance)是动态规划的两个经典模型,因为要用到二维的dp数组,所以我在初学时理解起来很困难,为加深理解和防止遗忘特地写成博客防止遗忘。两者性质相似,写在一起方便整理。两个都能计算数组和字符串,这里为方便书写,都写成数组。
LCS
LCS(最长公共子序列)就是字面意思,即两个串中完全相同的部分。
状态转移方程:
dp[i][j]=max{dp[i-1][j-1]+1(s[i]=t[j]),dp[i-1][j],dp[i][j-1]}
s和t两个串中,分别以s[i]和t[j]结尾的子串的LCS的长度为dp[i][j],其长度分为以下几种情况:
- s[i]=t[j]
若两个子串末尾相同,则dp[i][j]就等于以s[i-1]和t[j-1]为结尾的子串的LCS长度加1,即dp[i][j]=dp[i-1][j-1]+1; - s[i]!=t[j]
若两个子串末尾不同,则dp[i][j]就等于以s[i]和t[j-1]为结尾的子串的LCS和以s[i-1]和t[j]为结尾的子串的LCS的长度的最大值。
我在初学时很难理解——为什么只通过判断子串结尾就能确定两子串的LCS呢?但仔细研究就会发现,在算dp[i][j]的过程中,因为从1开始遍历,dp[i][j]经过不断的累加,实际调用的dp[i-1][j-1]之类的的时候相当于s[i]和t[j]之前的所有都已经变成完全相同的东西,比较大小是否相同只是为了确认现有的LCS会变得更长(s[i]=t[j]),还是不变化(s[i]!=t[j])。理解了这一点就简单多了。
代码:
#include<bits/stdc++.h>
using namespace std;
int t[105],s[105],dp[105][105],n,m;
int main(){
scanf("%d%d",&n,&m);
for(int i=1;i<=n;i++)scanf("%d",&s[i]);
for(int i=1;i<=m;i++)scanf("%d",&t[i]);
for(int i=1;i<=n;i++)
for(int j=1;j<=m;j++){
if(s[i]==t[j])dp[i][j]=dp[i-1][j-1]+1;
else dp[i][j]=max(dp[i-1][j],d[i][j-1]);
}
printf("%d\n",dp[n][m]);
return 0;
}
ED
ED(edit distance)意思是将一个串变为另一个串所需的最小修改次数。其大致思路和LCS一致,都是比较子串末尾来得到以s[i]和t[j]为结尾的子串变成完全相同所需的最小操作次数。操作内容包括删除添加和修改。
状态转移方程:
s[i]=t[j]
末尾相同就不需要修改,修改次数就等于dp[i-1][j-1]。s[i]!=t[j]
末尾不同就能分为3类,删掉一个、替换一个、和插入一个。不需要过多说明。
本题需要特殊处理的就是若有一个串的长度为0时,需要自己手动将dp[0][j]和dp[i][0]的大小手动定义为j和i。其余的不管是思路还是做法都和LCS大致相似。
代码:
#include<bits/stdc++.h>
using namespace std;
int t[105],s[105],dp[105][105],n,m;
int main(){
scanf("%d%d",&n,&m);
for(int i=1;i<=n;i++){
scanf("%d",&s[i]);
dp[i][0]=i;
}
for(int i=1;i<=m;i++){
scanf("%d",&t[i]);
dp[0][i]=i;
}
for(int i=1;i<=n;i++)
for(int j=1;j<=m;j++){
if(s[i]==t[j])dp[i][j]=dp[i-1][j-1];
else dp[i][j]=min(dp[i-1][j],min(dp[i][j-1],dp[i-1][j-1]))+1;
}
printf("%d\n",dp[n][m]);
return 0;
}
总之,LCS和ED作为两个经典模型,对类似的问题都有很大的启发作用,其思路值得深刻的理解,对今后dp的学习会有很大帮助。