最长公共子序列

chibianchuan9064

于 2018-11-20 14:57:00 发布

阅读量51

点赞数

原文链接：https://my.oschina.net/youngyoung123/blog/2878752

版权

#问题描述序列可以理解成一个字符串，比如“Chinese”就是一个序列，而子序列指的是由序列中的若干字符，按原相对次序构成的序列。需要注意的是，子序列中的各个字符的相对次序一定和原来序列中的相对次序一样。比如，“Cin”是“Chinese”的子序列，而“sin”就不是“Chinese”的子序列。最长公共子序列（Longest Common Subsequence）问题，就是要找出两个序列的最长的公共子序列。假设有一个长度为n的序列A[1,n]和一个长度为m的序列B[1,m]，A和B的最长公共子序列可以记为LCS(A, B)。

#思路对于序列A[0,n]和B[0,m]，LCS(A, B)无非三种情况： 1.若n=0或m=0，则取作空序列(""); 2.若A[n] = 'X' = B[m]，则取作LCS(A[1,n-1], B[1,m-1]) + 'X'; 3.若A[n] $\neq$B[m]，则取在LCS(A[1,n], B[1,m-1])和LCS(A[1,n-1], B[1,m])中取更长者。 #代码 ##递归根据以上思路，可以很容易用递归的方式写出代码，以下是用Python实现的代码：

def getLCS(str1, str2):
    str1_len = len(str1)
    str2_len = len(str2)
    if(str1_len == 0 or str2_len == 0):
        return ''
    if str1[str1_len-1] == str2[str2_len-1]:
        return getLCS(str1[:str1_len-1], str2[:str2_len-1]) + str1[str1_len-1]
    else:
        res1 = getLCS(str1[:str1_len-1], str2)
        res2 = getLCS(str1, str2[:str2_len-1])
        return res1 if len(res1) > len(res2) else res2

str1 = 'didactiC'
str2 = 'advant'

print(getLCS(str1, str2))

##迭代上面所讲的递归算法虽然可以得到正确的结果，但是计算量大的惊人，时间复杂度几乎是$O(2^n)$，这是什么概念，就是如果两个序列的长度均为50，那么计算机要执行1125899906842624个递归实例，现代个人计算机每秒大概能计算10亿次，即使每个递归实例的执行时间仅为一个指令周期，那么执行完这个程序也要花费13天，这显然是我们不能接受的。所以要对算法进行改进。改进的方法其实很简单，就是使用动态规划的方法，将递归改成迭代就可以了。下面是修改后的代码：

def getLCS(str1, str2):
    str1_len = len(str1)
    str2_len = len(str2)
    c = [[0 for i in range(str2_len+1)] for i in range(str1_len+1)]#  创建一个二维数组，记录最长公共子序列的长度
    lcs = ''
    for i in range(1, str1_len + 1):
        haveSame = False #记录当前行有没有相同的字符，如果有，则将该变量置为True
        sameChar = '' #记录当前行相同的字符
        for j in range(1, str2_len + 1):
            if str1[i-1] == str2[j-1]:
                c[i][j] = c[i-1][j-1] + 1
                haveSame = True
                sameChar = str1[i-1]
            else:
                c[i][j] = c[i][j-1] if c[i][j-1] > c[i-1][j] else c[i-1][j]
        if haveSame and c[i][j] == len(lcs) + 1:
            lcs += sameChar
    return lcs

str1 = 'didactiC'
str2 = 'advant'
print(getLCS(str1, str2))

由于oschina不支持LaTeX数学公式，所以文中有些地方显示比较奇怪。想查看原文的朋友，请点击：最长公共子序列

欢迎关注我的V信公众号AProgrammer，更多干货等你来发现！