问题描述:
给定两个序列X=< x1,x2,x3,…,xm >和Y=< y1,y2,y3,…,yn >,求X和Y长度最长的公共子序列
题目分析
LCS问题具有最优子结构性质。子问题的自然分类对应两个序列的“前缀”对
前缀:给定一个序列X=< x1,x2,x3…xm >对i=< 0,1,…,m >,定义X的第i前缀为Xi=< x1,x2,x3,…,xi >。
一.LCS的最优子结构:
给定两个序列X=< x1,x2,x3,…,xm >和Y=< y1,y2,y3,…,yn >,Z=< z1,z2,z3,…,zk >为X和Y的任意LCS。
- 如果xm=yn,则zk=xm=yn且Zk-1是Xm-1和Yn-1的一个LCS。
- 如果xm!=yn,则zk!=xm意味着Z是Xm-1和Y的一个LCS。
- 如果xm!=yn,则zk!=xm意味着Z是X和Yn-1的一个LCS。
二.LCS长度递推式
可设c[i][j]表示Xi和Yj的LCS的长度。由上可知
三.计算LCS长度
计算最长公共子序列长度的动态规划算法LCS_LENGTH(X,Y)以序列X=< x1, x2, …, xm >和Y=< y1, y2, …, yn >作为输入。输出两个数组c[0..m ,0..n]和b[1..m ,1..n]。其中c[i,j]存储Xi与Yj的最长公共子序列的长度,b[i,j]记录指示c[i,j]的值是由哪一个子问题的解达到的,这在构造最长公共子序列时要用到。最后,X和Y的最长公共子序列的长度记录于c[m,n]中。
Procedure LCS_LENGTH(X,Y);
begin
m:=length[X];
n:=length[Y];
for i:=1 to m do c[i,0]:=0;
for j:=1 to n do c[0,j]:=0;
for i:=1 to m do
for j:=1 to n do
if x[i]=y[j] then
begin
c[i,j]:=c[i-1,j-1]+1;
b[i,j]:="↖";
end
else if c[i-1,j]≥c[i,j-1] then
begin
c[i,j]:=c[i-1,j];
b[i,j]:="↑";
end
else
begin
c[i,j]:=c[i,j-1];
b[i,j]:="←"
end;
return(c,b);
end;
由算法LCS_LENGTH计算得到的数组b可用于快速构造序列X=< x1, x2, …, xm >和Y=< y1, y2, …, yn >的最长公共子序列。首先从b[m,n]开始,沿着其中的箭头所指的方向在数组b中搜索。
当b[i,j]中遇到”↖”时(意味着xi=yi是LCS的一个元素),表示Xi与Yj的最长公共子序列是由Xi-1与Yj-1的最长公共子序列在尾部加上xi得到的子序列;
当b[i,j]中遇到”↑”时,表示Xi与Yj的最长公共子序列和Xi-1与Yj的最长公共子序列相同;
当b[i,j]中遇到”←”时,表示Xi与Yj的最长公共子序列和Xi与Yj-1的最长公共子序列相同。
这种方法是按照反序来找LCS的每一个元素的。由于每个数组单元的计算耗费Ο(1)时间,算法LCS_LENGTH耗时Ο(mn)。
四.构造最长公共子序列
下面的算法LCS(b,X,i,j)实现根据b的内容打印出Xi与Yj的最长公共子序列。通过算法的调用LCS(b,X,length[X],length[Y]),便可打印出序列X和Y的最长公共子序列。
Procedure LCS(b,X,i,j);
begin
if i=0 or j=0 then return;
if b[i,j]="↖" then
begin
LCS(b,X,i-1,j-1);
print(x[i]); {打印x[i]}
end
else if b[i,j]="↑" then LCS(b,X,i-1,j)
else LCS(b,X,i,j-1);
end;
在算法LCS中,每一次的递归调用使i或j减1,因此算法的计算时间为O(m+n)。
例如,设所给的两个序列为X=< A,B,C,B,D,A,B >和Y=< B,D,C,A,B,A >。由算法LCS_LENGTH和LCS计算出的结果如下图所示:
附上C++代码
1.最长公共子序列长度
#include<cstring>
#include<iostream>
#include<algorithm>
using namespace std;
char s1[1010],s2[1010];
int maxlen[1010][1010];
int main()
{
while(cin>>s1>>s2)
{
int length1=strlen(s1);
int length2=strlen(s2);
memset(maxlen,0,sizeof(maxlen));
for(int i=1;i<=length1;i++)
{
for(int j=1;j<=length2;j++)
{
if(s1[i-1]==s2[j-1])maxlen[i][j]=maxlen[i-1][j-1]+1;
else maxlen[i][j]=max(maxlen[i-1][j],maxlen[i][j-1]);
}
}
cout<<maxlen[length1][length2]<<endl;
memset(s1,0,sizeof(s1));
memset(s2,0,sizeof(s2));
}
return 0;
}
2.输出最长公共子序列
#include<cstring>
#include<iostream>
#include<algorithm>
using namespace std;
char s1[1010],s2[1010];
int maxlen[1010][1010];
int node[1010][1010];
void print(int i,int j)
{
if(i==0||j==0)return;
if(node[i][j]==1)
{
print(i-1,j-1);
cout<<s1[i-1];
}
else if(node[i][j]==2)print(i-1,j);
else print(i,j-1);
}
int main()
{
while(cin>>s1>>s2)
{
int length1=strlen(s1);
int length2=strlen(s2);
memset(maxlen,0,sizeof(maxlen));
memset(node,0,sizeof(node));
for(int i=1;i<=length1;i++)
{
for(int j=1;j<=length2;j++)
{
if(s1[i-1]==s2[j-1])
{
maxlen[i][j]=maxlen[i-1][j-1]+1;
node[i][j]=1;
}
else if(maxlen[i-1][j]>=maxlen[i][j-1])
{
maxlen[i][j]=maxlen[i-1][j];
node[i][j]=2;
}
else
{
maxlen[i][j]=maxlen[i][j-1];
node[i][j]=3;
}
}
}
cout<<maxlen[length1][length2]<<endl;
print(length1,length2);
cout<<endl;
/*
for(int i=0;i<=length1;i++)
{
for(int j=0;j<=length2;j++)cout<<node[i][j]<<" ";
cout<<endl;
}
cout<<endl;
for(int i=0;i<=length1;i++)
{
for(int j=0;j<=length2;j++)cout<<maxlen[i][j]<<" ";
cout<<endl;
}
*/
memset(s1,0,sizeof(s1));
memset(s2,0,sizeof(s2));
}
return 0;
}