1 题目及要求
1.1 题目内容
最长公共子字符串。
2 解答
2.1 题目分析
相关博客:从优化到再优化,最长公共子串
首先要注意Longest Common Substring和Longest Common Subsequence是有区别的
X = <a, b, c,f, b, c>
Y = <a, b, f,c, a, b>
X和Y的Longest Common Sequence为<a, b, c, b>,长度为4
X和Y的Longest Common Substring为 <a, b>长度为2
其实Substring问题是Subsequence问题的特殊情况,也是要找两个递增的下标序列
<i1, i2,...ik> 和 <j1, j2,..., jk>使
xi1 == yj1
xi2 == yj2
......
xik == yjk
与Subsequence问题不同的是,Substring问题不光要求下标序列是递增的,还要求每次
递增的增量为1, 即两个下标序列为:
<i, i+1, i+2,..., i+k-1> 和 <j, j+1,j+2, ..., j+k-1>
类比Subquence问题的动态规划解法,Substring也可以用动态规划解决。
2.1.1 方法一:动态规划
dt[i][j]表示Xi和Yi的最大Substring的长度,比如
X = <y, e, d,f>
Y = <y, e, k,f>
dt[1][1] = 1
dt[2][2] = 2
dt[3][3] = 0
dt[4][4] = 1
动态转移方程为:
如果xi == yj, 则 c[i][j] = c[i-1][j-1]+1
如果xi ! = yj, 那么c[i][j] = 0
最后求Longest Common Substring的长度等于max{ dt[i][j], 1<=i<=n, 1<=j<=m}。
因此空间复杂度为O(mn),时间复杂度也为O(mn)。
2.1.2 方法二:遍历
将字符串s1和s2分别写在两把直尺上面(我依然用s1,s2来表示这两把直尺),然后将s1固定,s2的头部和s1的尾部对齐,然后逐渐移动直尺s2,比较重叠部分的字符串中的公共子串的长度,直到直尺s2移动到s1的头部。在这个过程中求得的最大长度就是s1、s2最大子串的长度。
此方案空间复杂度为O(1),时间复杂度也为O(mnn)。
2.2 代码
string LCSstr1(const string s1, const string s2) {
int startx(1), starty(1), sn1(s1.length()), sn2(s2.length());
vector<vector<int>> dt(sn1 + 1, vector<int>(sn2 + 1, 0));
for (int k1(1); k1 <= sn1;++k1)
for (int k2(1); k2 <= sn2; ++k2) {
dt[k1][k2] = (s1[k1 - 1] == s2[k2 - 1]) ? dt[k1 - 1][k2 - 1] + 1 : 0;
if (dt[k1][k2] > dt[startx][starty]) startx = k1, starty = k2;
}
return s1.substr(startx - dt[startx][starty], dt[startx][starty]);
}
string LCSstr2(const string s1, const string s2) {
int start1(0), maxlen(0), sn1(s1.length()), sn2(s2.length());
for (int k1(0); k1 < sn1; ++k1)
for (int k2(sn2 - 1), len; -1 < k2; --k2) {
len = 0;
for (int k3(0); k1 + k3 < sn1 && k2 + k3 < sn2 && s1[k1 + k3] == s2[k2 + k3]; ++k3) ++len;
if (maxlen < len) {
maxlen = len;
start1 = k1;
}
}
return s1.substr(start1, maxlen);
}