代码:
# 计算两个字符串的最长公共子串 def getNumofCommonSubstr(str1, str2): lstr1 = len(str1) lstr2 = len(str2) record = [[0 for i in range(lstr2 + 1)] for j in range(lstr1 + 1)] # 多一位,为了在计算第一个字时,有个左上角的初始值 maxNum = 0 # 最长匹配长度 p = 0 # 匹配的最长公共子串的结束位 for i in range(lstr1): for j in range(lstr2): if str1[i] == str2[j]: # 相同则累加 record[i + 1][j + 1] = record[i][j] + 1 if record[i + 1][j + 1] > maxNum: # 获取最大匹配长度 maxNum = record[i + 1][j + 1] # 记录最大匹配长度的终止位置 p = i + 1 return str1[p - maxNum:p], maxNum
测试:
str1 = '地球村中国江西省九江长江大桥'
str2 = '江西省九江长江大桥桥墩'
计算后得出的矩阵:
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 3, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 4, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 5, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 6, 0, 0, 1, 1, 0]
[0, 0, 0, 0, 0, 0, 0, 7, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 8, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 1, 0, 0, 9, 1, 0]
具体算法:初始的矩阵的值全为0,如果找到相同的字符,就在矩阵中的相应位置的左上角的记录数值+1然后,存入相应位置,如果连续相同,就会出现左上到右下的斜线,数值连续增加。把矩阵中最大的值和位置记录下来,就是最长公共子串。
首先获得打分矩阵:通过动态规划的编程思想,比较两序列的字符,确定打分矩阵中每个元素的数值。
初始化矩阵
c[i,0]=0和c[0,j]=0
计算若两字符相同则c[i,j]=c[i-1,j-1]+1,否则为默认值(0)。
参考:https://jingyan.baidu.com/article/359911f549245c57ff030652.html
最长公共子序列 (The Longest Common Subsequence)
与
不同
子串要求连续,相对简单,子序列可以不是连续的,相对复杂。
这个例子中我只使用子串。
另一个参考:
https://blog.csdn.net/wateryouyo/article/details/50917812
https://blog.csdn.net/c_donald/article/details/77247758