最长公共子序列(LongestCommonSubsequence Problem;LCS)
问题描述
给定两个序列 X=x1,x2,x3...,xm 和 Y=y1,y2,y3,...,yn ,求X和Y的最长公共子序列。
例子: X=A,B,C,B,D,A,B , y=B,D,C,A,B,A ,最长公共子序列为 B,C,B,A 。
注意:最长公共字串(LongestCommonSubstring)要求元素必须连续,最长公共子序列不要求,只要求子序列前后顺序不变。
问题意义:一种衡量两个序列“相似度”的方法,最长公共子序列越长,两者相似度越高。
补充:其他衡量两个序列/串相似度的方法:
1.如果,将一个串转换成另一个串的所需的操作步骤很少,那么两者是相似的;(《编程之美》字符串距离;《算法导论》15-5编辑距离)
2.如果一个串为另一个串的子串,那么两者是相似的。(字符串匹配)
解题思路
1.暴力破解法:X的子序列共有2^m种,对于每一种X的子序列判断是否为Y的子集,Y的子序列有2^m种,需要指数级别的时间复杂度O(2^(m+n))。
2.动态规划法,时间复杂度O(m*n)。
动态规划
1.刻画LCS最优解的结构特征
定义: X=x1,x2,x3...,xm 的第i个前缀为 Xi=x1,x2,x3...,xi (i<=m,i=0的Xi为空串)
令 X=x1,x2,x3...,xm 和 Y=y1,y2,y3,...,yn 为两个序列, Z=z1,z2,z3,...,zk 为 X 和Y 的任意LCS。
LCS的最优子结构:
1.如果 xm=yn ,则 zk=xm=yn 且 Zk−1 是 Xm−1 和 Yn−1 的一个LCS。
2.如果 xm≠yn ,那么 zk≠xm 意味着 Z 是Xm−1 和 Y 的一个LCS。
3.如果xm≠yn ,那么 zk≠yn 意味着 Z 是X 和 Yn−1 的一个LCS。
2.一个递归的求解方案
设计LCS的算法首先要建立最优解的递归式。我们定义
c[i,j]
表示
Xi
和
Yj
的LCS的长度,根据LCS问题的最优子结构性质,可得到如下公式:
c[i,j]=0,若i=0或j=0
c[i,j]=c[i−1,j−1]+1,若i,j>0且xi=yj
c[i,j]=max(c[i−1,j],c[i,j−1]),若i,j>0且xi≠yj
3.计算最优代价
LCS问题只有O(m*n)个不同的子问题,可以用自底向上的动态规划算法实现。
表b用于构造最优解,表c用于用于记录LCS长度,伪代码如下:
LCS-LENGTH(X,Y)
m = X.length
n = Y.length
let b[1...m,1..n] and c[0...m,0...n] be new tables
for i = 1 to m
c[i,0] = 0
for i = 1 to n
c[0,i] = 0
for i = 1 to m
for j = 1 to n
if xi = yj
c[i,j] = c[i-1,j-1] + 1
b[i,j] = '↖'
elseif c[i-1,j] >= c[i,j-1]
c[i,j] = c[i-1,j]
b[i,j] = '↑'
else
c[i,j] = c[i,j-1]
b[i,j] = '←'
return b and c
4.构造最优解
利用表b构造出最优解,起始调用为PRINT-LCS(b,X,X.length,Y.length)
伪代码如下:
PRINT-LCS(b,X,i,j)
if i == 0 or j == 0
return
elseif b[i,j] == '↖'
PRINT-LCS(b,X,i-1,j-1)
print xi
elseif b[i,j] == '↑'
PRINT-LCS(b,X,i-1,j)
else
PRINT-LCS(b,X,i,j-1)
优化
1.去除表b,只利用c重构出LCS的元素。
2.如果只计算LCS的长度,不需重构LCS中的元素,那么c表只需要两行就可以了,空间需求减少为O(min(m,n))。