问题:有两个字符串str1和str2,求出两个字符串中最长公共子串长度。
比如:str1=acbcbcef,str2=abcbced,则str和str2的最长公共子串为bcbce,最长公共子串长度为5。
穷举法:
分别在str1和str2上维护i和j两个索引,从str1第一个字符开始,和str2的每个字符对比。
void maxPublicSubStringOne(char *str1, char *str2) {
assert(str1 != NULL && str2 != NULL);
// 起始 位置
int startPosition = 0;
// 公共 子串 长度
int maxStringLength = 0;
// 循环 遍历 所有 子字符串
for (int i = 0; i < strlen(str1); i ++) {
for (int j = 0; j < strlen(str2); j++) {
// 如果 两个 字符 相等
if(str1[i] == str2[j]) {
// 继续 比较 后面的字符
int k = 1;
while (str1[i + k] == str2[j + k] && str1[i + k] != '0' && str2[j + k] != '0') {
k ++;
}
// 如果 k 大于 最长 字符串
if (k > maxStringLength) {
// 公共 子串 长度
maxStringLength = k;
// 起始位置
startPosition = i;
}
}
}
}
if(maxStringLength > 0) {
for (int i = startPosition; i <= maxStringLength; i++) {
printf("%c ", str1[i]);
}
}
}
三层循环,最内层用k记录公共子串长度。时间复杂度O(N^3).
动态规划
算法思路:参考https://blog.csdn.net/qq_25800311/article/details/81607168
1、把两个字符串分别以行和列组成一个二维矩阵。
2、比较二维矩阵中每个点对应行列字符中否相等,相等的话值设置为1,否则设置为0。
3、通过查找出值为1的最长对角线就能找到最长公共子串。
从上图可以看到,str1和str2共有5个公共子串,但最长的公共子串长度为5。
为了进一步优化算法的效率,我们可以再计算某个二维矩阵的值的时候顺便计算出来当前最长的公共子串的长度,即某个二维矩阵元素的值由record[i][j]=1演变为record[i][j]=1 +record[i-1][j-1],这样就避免了后续查找对角线长度的操作了。修改后的二维矩阵如下:
为了进一步优化算法的效率,我们可以再计算某个二维矩阵的值的时候顺便计算出来当前最长的公共子串的长度,即某个二维矩阵元素的值由record[i][j]=1演变为record[i][j]=1 +record[i-1][j-1],这样就避免了后续查找对角线长度的操作了。修改后的二维矩阵如下:
另外,在构造这个二维矩阵的过程中由于得出矩阵的某一行后其上一行就没用了,所以实际上在程序中可以用一维数组
来代替这个矩阵。
string getLCS(string str1, string str2) {
vector<vector<int> > record(str1.length(), vector<int>(str2.length()));
int maxLen = 0, maxEnd = 0;
for(int i=0; i<static_cast<int>(str1.length()); ++i)
for (int j = 0; j < static_cast<int>(str2.length()); ++j) {
if (str1[i] == str2[j]) {
if (i == 0 || j == 0) {
record[i][j] = 1;
}
else {
record[i][j] = record[i - 1][j - 1] + 1;
}
}
else {
record[i][j] = 0;
}
if (record[i][j] > maxLen) {
maxLen = record[i][j];
maxEnd = i; //若记录i,则最后获取LCS时是取str1的子串
}
}
return str1.substr(maxEnd - maxLen + 1, maxLen);
}
python代码如下:
def LCS(str1, str2):
len1=len(str1)
len2=len(str2)
record = [[0 for i in range(len1)] for j in range(len2)]
lcs=0
p=0
for i in range(len1):
for j in range(len2):
if(str1[i]==str2[j]):
if(i==0 or j==0):
record[i][j]=1
else:
record[i][j]=record[i-1][j-1]+1
if record[i][j]>lcs:
lcs=record[i][j]
p=i #//若记录i,则最后获取LCS时是取str1的子串
return lcs,str1[p+1-lcs:p+1]
print(LCS("abcdef", "cdefgh"))
时间复杂度O(N^2).