最长公共子序列（一）

最新推荐文章于 2022-04-25 22:21:03 发布

binks_

最新推荐文章于 2022-04-25 22:21:03 发布

阅读量449

点赞数

分类专栏：算法学习 python大法好文章标签：最长公共子序列字符串动态规划

本文链接：https://blog.csdn.net/binks_/article/details/50477627

版权

算法学习同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

python大法好

3 篇文章 0 订阅

订阅专栏

1.定义

最长公共子序列，即Longest Common Subsequence，LCS。
LCS可以描述两段文字之间的“相似度”，即它们的雷同程度，从而能够用来辨别抄袭。另一方面，对一段文字进行修改之后，计算改动前后文字的最长公共子序列，将除此子序列外的部分提取出来，这种方法判断修改的部分，往往十分准确。简而言之，百度知道、百度百科都用得上。

子序列：一个序列S任意删除若干个字符得到新序列T，则T叫做S的子序列；
最长公共子序列：两个序列X和Y的公共子序列中，长度最长的那个，定义为X和Y的最长公共子序列。
- 字符串13455与245576的最长公共子序列为455
- 字符串acdfg与adfc的最长公共子序列为adf

注意区别最长公共子串(Longest Common Substring)：最长公共字串要求连续。本文就是探讨这种情况。

2.分析

首先生成动态规划表。字符串s1的长度为,s2的长度为N，生成大小为M*N的矩阵dp,dp[i][j]的含义是把s1[i]和s2[j]当作公共子串的最后一个字符时，公共子串的长度最长长度。

例如s1=’A1234B’,s2=’CD1234’,dp[3][4]就是s1[3]=’3’和s2[4]=’3’作为公共子串最后一个字符时的最长长度，这是最长公共子串为’123’，那么dp[3][4]=3
显然，当s1[i]和s2[j]不相等时，不满足构成公共子串，那么这时dp[i][j]=0

总结一下：

s1[i]==s2[j]时，说明该字符可以作为最长公共子串的最后一个字符，那么它的长度是多少呢？就是dp[i-1][j-1]+1.
当s1[i]！=s2[j]，说明把该字符当作构成公共子串的最后一个字符是不可能的，那么这时dp[i][j]=0

3.代码

#-*-encoding:utf-8-*-

if __name__=='__main__':
    str1='21232523311324'
    str2='312123223445'
    max,end=getLongestCommonIndex(getDPMatrix())
    print str1[end-max+1:end+1]

def initMatrix():
    #初始化得到M*N的矩阵
    return [[0]*len(str2) for n in range(len(str1))]

def getDPMatrix():
    #得到动态规划表，先计算第一行/列
    l=initMatrix()
    for i in range(len(str1)):
        if str1[i]==str2[0]:
            l[i][0]=1
    for i in range(len(str2)):
        if str2[i]==str1[0]:
            l[0][i]=1

    for i in range(1,len(str1)):
        for j in range(1,len(str2)):
            if str1[i]==str2[j]:
                l[i][j]=l[i-1][j-1]+1
    return l

def getLongestCommonIndex(l):
    #遍历表并记录最长子串的长度和最后一个字符的下标
    max,end=0,0            
    for i in range(len(l)):
        for j in range(len(l[i])):
            if l[i][j]>max:
                max=l[i][j]
                end=i
    return max,end

4.优化空间复杂度

可以不生成矩阵，用一个变量从右上方开始计算，推导矩阵中的值，并且记录最大值和其下标。这样空间复杂度从O(M*N)就成了O(1).

binks_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
最长公共子序列（一）

1.定义最长公共子序列，即Longest Common Subsequence，LCS。 LCS可以描述两段文字之间的“相似度”，即它们的雷同程度，从而能够用来辨别抄袭。另一方面，对一段文字进行修改之后，计算改动前后文字的最长公共子序列，将除此子序列外的部分提取出来，这种方法判断修改的部分，往往十分准确。简而言之，百度知道、百度百科都用得上。子序列：一个序列S任意删除若干个字符得到新序列T，则T
复制链接

扫一扫