转摘自:力扣
题目
分析:
1. 如何快速寻找字符串的最长长度?
二分法!
2. 如何高效判断 ss 中是否有长度为 LL 的重复子串?
我们可以使用 Rabin-Karp 算法
对固定长度的字符串进行编码(Rabin-Karp算法解释详见:LeetCode | Rabin-Karp 算法)。
当两个字符串的编码相同时,则这两个字符串也相同。在 ss 中 {n-L+1}n−L+1
个长度为 LL 的子串中,有两个子串的编码相同时,则说明存在长度为 LL 的重复子串。具体步骤如下:
程序
class Solution:
def longestDupSubstring(self, s: str) -> str:
# 生成两个进制
a1, a2 = random.randint(26, 100), random.randint(26, 100)
# 生成两个模
mod1, mod2 = random.randint(10**9+7, 2**31-1), random.randint(10**9+7, 2**31-1)
n = len(s)
# 先对所有字符进行编码
arr = [ord(c)-ord('a') for c in s]
# 二分查找的范围是[1, n-1]
l, r = 1, n-1
length, start = 0, -1
while l <= r:
m = l + (r - l + 1) // 2
idx = self.check(arr, m, a1, a2, mod1, mod2)
# 有重复子串,移动左边界
if idx != -1:
l = m + 1
length = m
start = idx
# 无重复子串,移动右边界
else:
r = m - 1
return s[start:start+length] if start != -1 else ""
def check(self, arr, m, a1, a2, mod1, mod2):
n = len(arr)
aL1, aL2 = pow(a1, m, mod1), pow(a2, m, mod2)
h1, h2 = 0, 0
for i in range(m):
h1 = (h1 * a1 + arr[i]) % mod1
h2 = (h2 * a2 + arr[i]) % mod2
# 存储一个编码组合是否出现过
seen = {(h1, h2)}
for start in range(1, n - m + 1):
h1 = (h1 * a1 - arr[start - 1] * aL1 + arr[start + m - 1]) % mod1
h2 = (h2 * a2 - arr[start - 1] * aL2 + arr[start + m - 1]) % mod2
# 如果重复,则返回重复串的起点
if (h1, h2) in seen:
return start
seen.add((h1, h2))
# 没有重复,则返回-1
return -1
总结
- 理解Rabin-Karp 算法!!!
- 为什么要对字符串进行编码:如果报存为字符串形式,所占内存更高,比较时所耗费的时间更长!