目录
最长重复子串
描述
给你一个字符串 s ,考虑其所有 重复子串 :即,s 的连续子串,在 s 中出现 2 次或更多次。这些出现之间可能存在重叠。
返回 任意一个 可能具有最长长度的重复子串。如果 s 不含重复子串,那么答案为 "" 。
示例 1
输入:s = "banana" 输出:"ana"
示例 2
输入:s = "abcd" 输出:""
提示
- s 由小写英文字母组成
方法:二分查找+Rabin-Karp
记 s 的长度为 n。这个问题可以分为两步:从 n - 1 到 1 由大至小遍历选取长度 L,判断 s 中是否有长度为 L 的重复子串。从大至小遍历的时候,第一次遇到的符合条件的 L,即为最大的符合条件的 L,记为 ,重复的子串为
。并且对于任意满足
的
也均符合条件,因为
的所有子串也是 s 的重复子串。而对于任意满足
的
,则均不符合条件。因此,我们可以用二分查找的方法,来查找
。
剩下的任务便是如何高效判断 s 中是否有长度为 L 的重复子串。我们可以使用 Rabin-Karp 算法对固定长度的字符串进行编码。当两个字符串的编码相同时,则这两个字符串也相同。在 s 中 n−L+1 个长度为 L 的子串中,有两个子串的编码相同时,则说明存在长度为 L 的重复子串。具体步骤如下:
- 首先,我们需要对 s 的每个字符进行编码,得到一个数组 arr。因为本题中 s 仅包含小写字母,我们可按照 arr[i] = (int)s.charAt(i) - (int)'a',将所有字母编码为 0-25 之间的数字。比如字符串 "abcde" 可以编码为数组 [0, 1, 2, 3, 4]
- 我们将子串看成一个 26 进制的数,它对应的10 进制数就是它的编码。假设此时我们需要求长度为 3 的子串的编码。那么第一个子串 "abc" 的编码就是
。更一般地,设
为 s 的第 i 个字符编码后的数字,a (
) 为编码的进制,那么有
- 上一步我们只求了第一个子串 "abc" 的编码。当我们要求第二个子串 "bcd" 的编码时,也可以按照上一步的方法求:
,但是这样时间复杂度是 O(L)。我们可以在
的基础上,更快地求出它的编码:
。更一般的表达式是:
。这样,我们只需要在常数时间内就可以根据上一个子串的编码求出下一个子串的编码。我们用一个哈希表 seen 来存储子串的编码。在求子串的编码时,如果某个子串的编码出现过,则表示存在长度为 L 的重复子串,否则,我们将当前的编码放入 seen 中。如果所有编码都不重复,则说明不存在长度为 L 的重复子串。
- 还有一点需要考虑的是,本题中
会非常大。一般的做法是需要对编码进行取模来防止溢出,模一般选取编码的信息量的平方的数量级。而取模则会带来哈希碰撞。本题中为了避免碰撞,我们使用双哈希,即用两套进制和模的组合,来对字符串进行编码。只有两种编码都相同时,我们才认为字符串相同。
- 本题要求返回最长重复子串而不是最长重复子串长度。因此,当存在长度为 LL 的子串时,我们的判断函数可以返回重复子串的起点。而当不存在时,可以返回 −1 用做区分。
class Solution {
public String longestDupSubstring(String s) {
Random random = new Random();
// 生成两个进制
int a1 = random.nextInt(75) + 26;
int a2 = random.nextInt(75) + 26;
// 生成两个模
int mod1 = random.nextInt(Integer.MAX_VALUE - 1000000007 + 1) + 1000000007;
int mod2 = random.nextInt(Integer.MAX_VALUE - 1000000007 + 1) + 1000000007;
int n = s.length();
// 先对所有字符进行编码
int[] arr = new int[n];
for (int i = 0; i < n; ++i) {
arr[i] = s.charAt(i) - 'a';
}
// 二分查找的范围是[1, n-1]
int l = 1, r = n - 1;
int length = 0, start = -1;
while (l <= r) {
int m = l + (r - l + 1) / 2;
int idx = check(arr, m, a1, a2, mod1, mod2);
if (idx != -1) {
// 有重复子串,移动左边界
l = m + 1;
length = m;
start = idx;
} else {
// 无重复子串,移动右边界
r = m - 1;
}
}
return start != -1 ? s.substring(start, start + length) : "";
}
public int check(int[] arr, int m, int a1, int a2, int mod1, int mod2) {
int n = arr.length;
long aL1 = pow(a1, m, mod1);
long aL2 = pow(a2, m, mod2);
long h1 = 0, h2 = 0;
for (int i = 0; i < m; ++i) {
h1 = (h1 * a1 % mod1 + arr[i]) % mod1;
h2 = (h2 * a2 % mod2 + arr[i]) % mod2;
if (h1 < 0) {
h1 += mod1;
}
if (h2 < 0) {
h2 += mod2;
}
}
// 存储一个编码组合是否出现过
Set<Long> seen = new HashSet<Long>();
seen.add(h1 * mod2 + h2);
for (int start = 1; start <= n - m; ++start) {
h1 = (h1 * a1 % mod1 - arr[start - 1] * aL1 % mod1 + arr[start + m - 1]) % mod1;
h2 = (h2 * a2 % mod2 - arr[start - 1] * aL2 % mod2 + arr[start + m - 1]) % mod2;
if (h1 < 0) {
h1 += mod1;
}
if (h2 < 0) {
h2 += mod2;
}
long num = h1 * mod2 + h2;
// 如果重复,则返回重复串的起点
if (!seen.add(num)) {
return start;
}
}
// 没有重复,则返回-1
return -1;
}
public long pow(int a, int m, int mod) {
long ans = 1;
long contribute = a;
while (m > 0) {
if (m % 2 == 1) {
ans = ans * contribute % mod;
if (ans < 0) {
ans += mod;
}
}
contribute = contribute * contribute % mod;
if (contribute < 0) {
contribute += mod;
}
m /= 2;
}
return ans;
}
}