动态规划-最长公共子序列问题

最长公共子序列问题
    最长公共子序列问题(longest-common-subsequence problem)给定两个序列X=<x1,x2,...,xm>和Y=<y1,y2,...,yn>,求X和Y长度最小的公共子序列(可以不连续)。接下来将展示如何用动态规划方法高效地求解LCS问题。
步骤1:刻画最长公共子序列的特征
     如果用暴力搜索方法求解LCS问题,就要穷举X的所有子序列,对每个子序列检查它是否也是Y的子序列,记录找到的最长子序列。X的每个子序列对应X的下标集合<1,2,...,m>,所以X有2^m个子序列(例序列<1,2,3>的子序列分别是1,2,3,12,13,23,123,所以应该是(2^m)-1个子序列),因此暴力方法的运行时间为指数阶,对较长的序列是不实用的。
     但是LCS问题具有最优子结构性质。我们将看到,子问题的自然分类对应两个输入序列的“前缀”对。前缀的严谨定义如下:给定一个序列X=<X1,X2,...Xm>,对i=0,1,...,m,定义X的第i前缀为Xi=<x1,x2,...,xi>。例如,若X=<A,B,C,B,D,A,B>,则X4=<A,B,C,B>,X0为空串。
     存在以下定理(LCS的最优子结构) 令X=<x1,x2,...,xm>和Y=<y1,y2,...,yn>为两个序列,Z=<z1,z2,...,zk>为X和Y的任意LCS。
   1.如果x(m)=y(n),则z(k)=x(m)=y(n)且Z(k-1)是X(m-1)和Y(n-1)的一个LCS。
   2.如果x(m)≠y(n),那么z(k)≠x(m)意味着Z是X(m-1)和Y的一个LCS。
   3.如果x(m)≠y(n),那么z(k)≠y(n)意味着Z是X和Y(n-1)的一个LCS。
步骤2:一个递归解
   上述定理意味着,在求序列X和Y的一个LCS时,我们需要求解一个或两个子问题。如果x(m)=y(n),我们应该求解X(m-1)和Y(n-1)的一个LCS。将x(m)=y(n)追加到这个LCS的末尾,就得到X和Y的一个LCS。如果x(m)≠y(n),我们必须求解两个子问题:求X(m-1)和Y的一个LCS与X和Y(n-1)的一个LCS。两个LCS较长者即为X和Y的一个LCS。由于这些情况覆盖了所有可能性,因此我们知道必然有一个子问题的最优解出现在X和Y的LCS中。
   我们可以很容易看出LCS问题的重叠子问题性质。为了求X和Y的一个LCS,我们可能要求 X和Y(n-1)的一个LCS以及X(m-1)和Y的一个LCS。但这几个子问题都包含求解X(m-1)和Y(n-1)的LCS的子子问题。很多其他子问题也都享有子子问题。
   与矩阵链乘法问题相似,设计LCS问题的递归算法首先要建立最优解的递归式。我们定义c[i,j]表示X(i)和Y(j)的LCS的长度。如果i=0或j=0,即一个序列的长度为0,那么LCS的长度为0。根据LCS问题的最优子结构性质,可得到下面公式:
   ①若i=0或j=0,c[i,j]=0;
   ②若i,j>0且x(i)=y(j),c[i,j]=c[i-1,j-1]+1。
   ③若i,j>0且x(i)≠y(j),c[i,j]=max(c[i,j-1],c[i-1,j])
   观察上述公式,我们通过限制条件限定了需要求解那些子问题。当x(i)=y(j)我们可以而且应该求解子问题:X(i-1)和Y(j-1)的一个LCS。否则,应该求解两个子问题:X(i)和Y(j-1)的一个LCS及X(i-1)和Y(j)和一个LCS。在之前的钢条切割和矩阵链乘法问题的动态规划算法中,根据问题的条件,我们没有排除任何子问题。不过,LCS问题并非唯一根据条件排除子问题的动态规划算法。
步骤3:计算LCS的长度
    我们可以很容易地写出一个指数时间的递归算法来计算两个序列的LCS的长度。但是由于LCS问题只有Θ(mn)个不同的子问题,我们可以用动态规划方法自底向上地计算。

过程LCS_LENGTH接受两个序列X=<x1,x2,...xm>和Y=<y1,y2,...y2>为输入。它将c[i,j]的值保存在表c中,并按行主次序(row-major order)计算表项(即首先由左至右计算c的第一行,然后计算第二行,依次类推)。过程还维护一个表b,帮助构造最优解。b[i,j]指向表项对应计算c[i,j]时选择的子问题最优解。过程返回表b和c,c[m,n]保存了X和Y的LCS的长度。

void LCS_LENGTH(string X,string Y,int **c, int **b)
{
	int m=X.length();
	int n=Y.length();
	for(int i=1;i<=m;i++)   c[i][0]=0;
	for(int j=0;j<=n;j++)  c[0][j]=0; 
	for(int i=1;i<=m;i++)
	{
		for(int j=1;j<=n;j++)
		 {
			if(X[i]==Y[j])
			{
				c[i][j]=c[i-1][j-1]+1;
				b[i][j]='↖';  /* 这个符号是int类似 */
			}
			 else if(c[i-1][j]>=c[i][j-1])
			{
				c[i][j]=c[i-1][j];
				b[i][j]='↑';
			 }
			else 
			{
				c[i][j]=c[i][j-1];
				b[i][j]='←';
			 }
		  }
	}
}

      下图显示了LCS_LENGTH对输入序列X=<A,B,C,B,D,A,B>和Y=<B,D,C,A,B,A>生成的过程。过程运行的时间为Θ(mn),因为每个表项的计算时间为Θ(1)。

      其中表项c[7,6]中的4即为X和Y的一个LCS <B,C,B,A>的长度。对所有i,j>0,表项c[i,j]仅依赖于x(i)=y(j)以及c[i-1][j]、c[i][j-1]和c[i-1][j-1]的值买这些值都会在c[i][j]之前计算出来。为了构造LCS中的元素,从右下角开始沿着b[i,j]的箭头前进即可,如图中阴影方格序列。阴影序列中每个“↖”对应的表项表示x(i)=y(j)是LCS的一个元素。
步骤4:构造LCS

   我们可以用LCS_LENGTH返回的表b快速构造X=<x1,x2,...,xm>和Y=<y1,y2,...,yn>的LCS,只需简单地从b[m,n]开始,并按箭头方向追踪下去即可。当在表项b[i,j]中遇到一个“↖”时,意味着x(i)=y(j)是LCS的一个元素。按照这种方法,我们可以按逆序依次构造出LCS的所有元素。下面的递归过程会按正确的顺序打印出X和Y的一个LCS。对它的起始调用为PRINT_LCS

 
void PRINT_LCS(int **b,string X,int i,int j)
{
	if(i==0||j==0) return ;
	if(b[i][j]=='↖') 
	{
		PRINT_LCS(b,X,i-1,j-1);
		cout<<X[i];
	}
	else if(b[i][j]=='↑')
	{
		PRINT_LCS(b,X,i-1,j);
	}
	else  PRINT_LCS(b,X,i,j-1);
}    

   对于上图中表b,此过程会打印出BCBA。过程运行时间为O(m+n),每次递归调用i和j至少有一个会减少1。

下面给出完整的代码实现,假定给定序列X=<A,B,C,B,D,A,B>和Y=<B,D,C,A,B,A>。

#include<iostream>
#include<string>
using namespace std;
void LCS_LENGTH(string X,string Y,int **c, int **b)
{
	int m=X.length();
	int n=Y.length();
	for(int i=1;i<=m;i++)   c[i][0]=0;
	for(int j=0;j<=n;j++)  c[0][j]=0; 
	for(int i=1;i<=m;i++)
	{
		for(int j=1;j<=n;j++)
		 {
			if(X[i]==Y[j])
			{
				c[i][j]=c[i-1][j-1]+1;
				b[i][j]='↖';  /* 这个符号是int类似 */
			}
			 else if(c[i-1][j]>=c[i][j-1])
			{
				c[i][j]=c[i-1][j];
				b[i][j]='↑';
			 }
			else 
			{
				c[i][j]=c[i][j-1];
				b[i][j]='←';
			 }
		  }
	}
}	
void PRINT_LCS(int **b,string X,int i,int j)
{
	if(i==0||j==0) return ;
	if(b[i][j]=='↖') 
	{
		PRINT_LCS(b,X,i-1,j-1);
		cout<<X[i];
	}
	else if(b[i][j]=='↑')
	{
		PRINT_LCS(b,X,i-1,j);
	}
	else  PRINT_LCS(b,X,i,j-1);
}  
int main()
{
	string X="0ABCBDAB";  /* 因为对序列的操作是从1开始,所以X[0]=0 */
	string Y="0BDCABA";
	int m=X.length();
	int n=Y.length();
	/* 动态申请 */
	int **c=new int *[m+1];
	for(int i=0;i<=m;i++) c[i]=new int[n+1];
	int **b=new int *[m+1];
	for(int i=0;i<=m;i++) b[i]=new int[n+1];
	/* 计算表b和c */
	LCS_LENGTH(X,Y,c,b);
	/* 打印 */
	PRINT_LCS(b,X,m,n);
	/* 回收内存 */
	for (int i = 0; i < m+1; i++)     
       {  
          delete b[i];     
          b[i] = NULL;
	  delete c[i];
	  c[i] = NULL;
       }  
       delete []b;     
        b = NULL; 
	delete []c;
	c = NULL;
	return 0;
}

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
最长公共子序列问题(Longest Common Subsequence,简称LCS)是指在两个序列中找到一个最长的公共子序列,其中一个序列的所有元素按原序列中出现的顺序排列,而另一个序列中的元素则不要求按原序列中出现的顺序排列。 动态规划方法可以很好地解决LCS问题。设A和B是两个序列,LCS(A,B)表示A和B的最长公共子序列。则可以设计如下的状态转移方程: 当A和B的末尾元素相同时,LCS(A,B) = LCS(A-1,B-1) + 1。 当A和B的末尾元素不同时,LCS(A,B) = max(LCS(A-1,B), LCS(A,B-1))。 其中,LCS(A-1,B-1)表示A和B的末尾元素相同时的情况,LCS(A-1,B)表示A的最后一个元素不在最长公共子序列中,而B中的最后一个元素在最长公共子序列中的情况,LCS(A,B-1)表示B的最后一个元素不在最长公共子序列中,而A中的最后一个元素在最长公共子序列中的情况。 根据这个状态转移方程,可以使用动态规划算法来求解LCS问题。具体方法是,构建一个二维数组dp,其中dp[i][j]表示A前i个元素和B前j个元素的LCS。初始化dp[0][j]和dp[i][0]为0,然后按照上述状态转移方程进行递推,最终得到dp[lenA][lenB],其中lenA和lenB分别表示A和B的长度。dp[lenA][lenB]即为A和B的最长公共子序列的长度。要找到具体的最长公共子序列,可以从dp[lenA][lenB]开始,按照状态转移方程反向推导出每个元素,即可得到最长公共子序列。 LCS问题动态规划算法的经典应用之一,时间复杂度为O(n*m),其中n和m分别为A和B的长度。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值