一个给定序列的子序列是在该序列中删去若干元素后得到的序列。确切地说,若给定序列X=<x1,x2,…,xm>,则另一序列Z=<z1,z2,…,zk>是X的子序列是指存在一个严格递增的下标序列<i1,i2,…,ik>,使得对于所有j=1,2,…,k有:Xij=Zj
例如,序列Z=<B,C,D,B>是序列X=<A,B,C,B,D,A,B>的子序列,相应的递增下标序列为<2,3,5,7>。给定两个序列X和Y,当另一序列Z既是X的子序列又是Y的子序列时,称Z是序列X和Y的公共子序列。例如,若X=<A,B,C,B,D,A,B>和Y=<B,D,C,A,B,A>,则序列<B,C,A>是X和Y的一个公共子序列,序列 <B,C,B,A>也是X和Y的一个公共子序列。而且,后者是X和Y的一个最长公共子序列.因为X和Y没有长度大于4的公共子序列。
给定两个序列X=<x1,x2,…,xm>和Y=<y1,y2….yn>.要求找出X和Y的一个最长公共子序列。
输入格式:
输入文件共有两行。每行为一个由大写字母构成的长度不超过200的字符串,表示序列X和Y。
输出格式:
输出文件第一行为一个非负整数。表示所求得的最长公共子序列的长度。若不存在公共子序列.则输出文件仅有一行输出一个整数0。否则在输出文件的第二行输出所求得的最长公共子序列(也用一个大写字母组成的字符串表示)。若符合条件的最长公共子序列不止一个,只需输出其中任意一个。
样例输入:
ABCBDAB
BDCABA
样例输出:
4
提示:
最长公共子串(Longest Common Substirng)和最长公共子序列(Longest Common Subsequence,LCS)的区别为:子串是串的一个连续的部分,子序列则是从不改变序列的顺序,而从序列中去掉任意的元素而获得新的序列;也就是说,子串中字符的位置必须是连续的,子序列则可以不必连续。字符串长度小于等于1000。
算法分析:
与最长不下降子序列(LIS)类似的,我们可以以子序列的结尾作为状态,但现在有两个子序列,那么直接以两个子序列当前的结尾作为状态即可。
①确定状态:
设F[x][y]表示S[1..x]与T[1..y]的最长公共子序列的长度。答案为F[|S|][|T|]。
②确定状态转移方程和边界条件:
分三种情况来考虑:
S[x]不在公共子序列中:该情况下F[x][y]=F[x-1][y];
T[y]不在公共子序列中:该情况下F[x][y]=F[x][y-1];
S[x]=T[y],S[x]与T[y]在公共子序列中:该情况下,F[x][y]=F[x-1][y-1]+1。
F[x][y]取上述三种情况的最大值。综上:
状态转移方程:F[x][y]=max{F[x-1][y],F[x][y-1],F[x-1][y-1]+1},其中第三种情况要满足S[x]=T[y];
边界条件:F[0][y]=0,F[x][0]=0。
③程序实现:
计算F[x][y]时用到 F[x-1][y-1],F[x-1][y],F[x][y-1]这些状态,它们要么在F[x][y]的上一行,要么在F[x][y]的左边。因此预处理出第0行,然后按照行从小到大、同一行按照列从小到大的顺序来计算就可以用迭代法计算出来。时间复杂度为O(|S|*|T|)。
#include <iostream>
#include <string>
#include <algorithm>
using namespace std;
const int MAXN = 5005;
string S,T;
int F[MAXN][MAXN];
int main()
{
cin >> S;
cin >> T;
int ls = S.length(),lt = T.length();
for(int i = 1;i <= ls;i ++)
for(int j = 1;j <= lt;j ++)
{
F[i][j] = max(F[i - 1][j],F[i][j - 1]);
if (S[i - 1] == T[j - 1])
F[i][j] = max(F[i][j],F[i - 1][j - 1] + 1);
}
cout << F[ls][lt] << endl;
return 0;
}