参考博客:
https://blog.csdn.net/chengonghao/article/details/51913108
https://blog.csdn.net/lz161530245/article/details/76943991
https://www.cnblogs.com/hapjin/p/5572483.html
问题描述
子序列:与原序列顺序相关的一个原序列的一个子集
例如:ABCSCY 的一个子序列 BSY
公共子序列即两个序列共有的一段子序列,例如ABCSCY和ABFSGP都有BSY序列
所以最长公共子序列即是两端字符串的公共子序列最长的一段
问题求解
1.暴力法
这里涉及到排列组合,与字符串的长度呈指数相关
2.动态规划
2.1找子问题,考虑两条子序列的最后一位
设A= a1,a2,a3,a4...ax B = b1,b2,b3,...by 求最长公共子序列Lcs(x,y)=Z=z1,z2....zm;Z的长度计为lcs(x,y)
(1)ax = by
假设Ax和By的最后一位 ax=by=t , 则 Z的最后一位Lcs(x,y)=zm=t
证明:(反证法)Lcs(x,y)的最后一位为Aa=Bb不为t,且a<x,b<y,则可以把t加到公共子序列的后面得到更长的序列,与假设矛盾
所以zm=t
有了zm=t 就可以得到 当Ax = By时 有 lcs(x,y) = lcs(x-1,y-1)+1
(2)Ax≠By
这里设Lcs(x,y)的最后一位为t
(2.1)t≠ax,有lcs(x,y)=lcs(x-1,y)
(2.2)t≠by,有lcs(x,y)=lcs(x,y-1)
由于两种情况都可能发生 所以根据最长公共子序列的定义 lcs(x,y)=max(lcs(x-1,y),lcs(x,y-1))
(3)当Ax或By为空序列的时候lcs(x,y)=0
所以得到以下递推关系式
lcs(x,y) =
(1)lcsx-1,y-1)+1(ax=by=t)
(2)max(lcs(x-1,y),lcs(x,y-1))(t≠ax,t≠by)
(3)0 Ax或By为空
找到了递推关系式,就有了两种想法:①利用递推关系式递归,从后往前退②利用动态规划,从前往后推,这里由于递推关系式中存在过多的重叠子问题例如:lcs(x-1,y)中就包括lcs(x-1,y-1)在求解的时候就会多次重复求解,造成时间复杂度提高,所以这里选择使用动态规划从前往后推,将子问题的解存储到数组中备用,从而降低时间复杂度
由上面的递推关系式很容易就会想到用一个二维数组c[m][n]存子问题的结果
以下是数组的递推表达式
由这个二维数组可以很容易得到最长公共子序列的长度,但如何得到最长功能公共子序列本身呢?
通过回溯二维数组,以下面这张图为例,我们可以很容易看到二维数组的求解过程
当发生ax=by=t时即图中斜箭头地方,记录发生位置打印字符,遍历完数组的时候,最长公共子序列也就打印完了、
分析到此,上代码
#最长公共子序列,动态规划
a='ABCBDAB'
b='BDCABA'
m=len(a)
n=len(b)
c=[[0 for i in range(n+1)] for j in range(m+1)] #列表生成表达式,生成一个n行m列的二维数组
d=[[-1 for i in range(n+1)] for j in range(m+1)]
#得到最长公共子数组的长度数组c和记录相同字符出现的位置
def len_lcs(a,b,c,d):
for i in range(1,len(a)+1):
for j in range(1,len(b)+1):
if a[i-1]==b[j-1]:
c[i][j]=c[i-1][j-1]+1
d[i][j]=0
elif c[i-1][j] >= c[i][j-1]: #当不相等时
c[i][j] = c[i-1][j]
d[i][j] = 1
else:
c[i][j] = c[i][j-1]
d[i][j] = 2
return c[len(a)][len(b)]
lcs_ab = len_lcs(a,b,c,d)
print('最长公共子序列长度:%d'%(lcs_ab))
print('最长公共子序列:',end='')
#根据数组d求出最长公共子序列
def print_lcs(a,d,x,y):
if x==0 or y==0:
return
elif d[x][y] == 0 :
print_lcs(a,d,x-1,y-1)
print(a[x-1],end='')
elif d[x][y] == 1:
print_lcs(a,d,x-1,y)
else:
print_lcs(a,d,x,y-1)
print_lcs(a,d,m,n)
思考:
上述代码的时空间复杂度如何分析
空间复杂度
代码使用了一个(m+1)*(n+1)的二维数组,所以可以认为代码的空间复杂度为O(m*n)
最长公共子序列一般不唯一
如果只需要求最长公共子序列的长度,有什么办法可以简化代码
最长公共子序列有什么应用