最长公共子序列(一)

1.定义

最长公共子序列,即Longest Common Subsequence,LCS。
LCS可以描述两段文字之间的“相似度”,即它们的雷同程度,从而能够用来辨别抄袭。另一方面,对一段文字进行修改之后,计算改动前后文字的最长公共子序列,将除此子序列外的部分提取出来,这种方法判断修改的部分,往往十分准确。简而言之,百度知道、百度百科都用得上。

  • 子序列:一个序列S任意删除若干个字符得到新序列T,则T叫做S的子序列;
  • 最长公共子序列:两个序列X和Y的公共子序列中,长度最长的那个,定义为X和Y的最长公共子序列。
    • 字符串13455与245576的最长公共子序列为455
    • 字符串acdfg与adfc的最长公共子序列为adf

注意区别最长公共子串(Longest Common Substring):最长公共字串要求连续。本文就是探讨这种情况。

2.分析

首先生成动态规划表。字符串s1的长度为,s2的长度为N,生成大小为M*N的矩阵dp,dp[i][j]的含义是把s1[i]和s2[j]当作公共子串的最后一个字符时,公共子串的长度最长长度。

例如s1=’A1234B’,s2=’CD1234’,dp[3][4]就是s1[3]=’3’和s2[4]=’3’作为公共子串最后一个字符时的最长长度,这是最长公共子串为’123’,那么dp[3][4]=3
显然,当s1[i]和s2[j]不相等时,不满足构成公共子串,那么这时dp[i][j]=0

总结一下:

  • s1[i]==s2[j]时,说明该字符可以作为最长公共子串的最后一个字符,那么它的长度是多少呢?就是dp[i-1][j-1]+1.

  • 当s1[i]!=s2[j],说明把该字符当作构成公共子串的最后一个字符是不可能的,那么这时dp[i][j]=0

3.代码

#-*-encoding:utf-8-*-

if __name__=='__main__':
    str1='21232523311324'
    str2='312123223445'
    max,end=getLongestCommonIndex(getDPMatrix())
    print str1[end-max+1:end+1]

def initMatrix():
    #初始化得到M*N的矩阵
    return [[0]*len(str2) for n in range(len(str1))]

def getDPMatrix():
    #得到动态规划表,先计算第一行/列
    l=initMatrix()
    for i in range(len(str1)):
        if str1[i]==str2[0]:
            l[i][0]=1
    for i in range(len(str2)):
        if str2[i]==str1[0]:
            l[0][i]=1

    for i in range(1,len(str1)):
        for j in range(1,len(str2)):
            if str1[i]==str2[j]:
                l[i][j]=l[i-1][j-1]+1
    return l

def getLongestCommonIndex(l):
    #遍历表并记录最长子串的长度和最后一个字符的下标
    max,end=0,0            
    for i in range(len(l)):
        for j in range(len(l[i])):
            if l[i][j]>max:
                max=l[i][j]
                end=i
    return max,end

4.优化空间复杂度

可以不生成矩阵,用一个变量从右上方开始计算,推导矩阵中的值,并且记录最大值和其下标。这样空间复杂度从O(M*N)就成了O(1).

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值