1.定义
最长公共子序列,即Longest Common Subsequence,LCS。
LCS可以描述两段文字之间的“相似度”,即它们的雷同程度,从而能够用来辨别抄袭。另一方面,对一段文字进行修改之后,计算改动前后文字的最长公共子序列,将除此子序列外的部分提取出来,这种方法判断修改的部分,往往十分准确。简而言之,百度知道、百度百科都用得上。
- 子序列:一个序列S任意删除若干个字符得到新序列T,则T叫做S的子序列;
- 最长公共子序列:两个序列X和Y的公共子序列中,长度最长的那个,定义为X和Y的最长公共子序列。
- 字符串13455与245576的最长公共子序列为455
- 字符串acdfg与adfc的最长公共子序列为adf
注意区别最长公共子串(Longest Common Substring):最长公共字串要求连续。本文就是探讨这种情况。
2.分析
首先生成动态规划表。字符串s1的长度为,s2的长度为N,生成大小为M*N的矩阵dp,dp[i][j]的含义是把s1[i]和s2[j]当作公共子串的最后一个字符时,公共子串的长度最长长度。
例如s1=’A1234B’,s2=’CD1234’,dp[3][4]就是s1[3]=’3’和s2[4]=’3’作为公共子串最后一个字符时的最长长度,这是最长公共子串为’123’,那么dp[3][4]=3
显然,当s1[i]和s2[j]不相等时,不满足构成公共子串,那么这时dp[i][j]=0
总结一下:
s1[i]==s2[j]时,说明该字符可以作为最长公共子串的最后一个字符,那么它的长度是多少呢?就是dp[i-1][j-1]+1.
当s1[i]!=s2[j],说明把该字符当作构成公共子串的最后一个字符是不可能的,那么这时dp[i][j]=0
3.代码
#-*-encoding:utf-8-*-
if __name__=='__main__':
str1='21232523311324'
str2='312123223445'
max,end=getLongestCommonIndex(getDPMatrix())
print str1[end-max+1:end+1]
def initMatrix():
#初始化得到M*N的矩阵
return [[0]*len(str2) for n in range(len(str1))]
def getDPMatrix():
#得到动态规划表,先计算第一行/列
l=initMatrix()
for i in range(len(str1)):
if str1[i]==str2[0]:
l[i][0]=1
for i in range(len(str2)):
if str2[i]==str1[0]:
l[0][i]=1
for i in range(1,len(str1)):
for j in range(1,len(str2)):
if str1[i]==str2[j]:
l[i][j]=l[i-1][j-1]+1
return l
def getLongestCommonIndex(l):
#遍历表并记录最长子串的长度和最后一个字符的下标
max,end=0,0
for i in range(len(l)):
for j in range(len(l[i])):
if l[i][j]>max:
max=l[i][j]
end=i
return max,end
4.优化空间复杂度
可以不生成矩阵,用一个变量从右上方开始计算,推导矩阵中的值,并且记录最大值和其下标。这样空间复杂度从O(M*N)就成了O(1).