给定一个字符串S,找到S中最长的回文子串。
注:
这是文章的第二部分:最长回文子串。在这里,我们描述一种算法(Manacher算法),它在线性时间中找到最长的回文子串。请阅读第I部分了解更多背景信息。
在我的上一篇文章中,我们讨论了总共四种不同的方法,其中有一个非常简单的算法与O(N 2)运行时间和恒定的空间复杂性。这里,我们讨论在O(N)时间和O(N)空间中运行的算法,也称为Manacher算法。
提示:
想想如何改进更简单的O(N 2)方法。考虑最坏的情况。最坏情况情况是具有彼此重叠的多个回文的输入。例如,输入:“aaaaaaaaa”和“cabcbabcbabcba”。事实上,我们可以利用回文的对称性,避免一些不必要的计算。
O(N)解(Manacher算法):
首先,通过在字母之间插入一个特殊字符“#”,将输入字符串S转换为另一个字符串T. 这样做的原因很快就会很快清楚。
例如:S =“abaaba”,T =“#a#b#a#a#b#a#”。
为了找到最长的回文子串,我们需要围绕每个T i扩展,使得T i-d ... T i + d形成回文。你应该立即看到,d是以T i为中心的回文本身的长度。
我们将中间结果存储在数组P中,其中P [i]等于T i处回文中心的长度。最长的回文子串将是P中的最大元素。
使用上面的例子,我们填充P如下(从左到右):
T =#a#b#a#a#b#a# P = 0 1 0 3 0 1 6 1 0 3 0 1 0
看着P,我们立刻看到,最长的回文是“abaaba”,如P 6 = 6所示。
你注意到在字母之间插入特殊字符(#),奇数和偶数长度的回文都得到了慷慨的处理?(请注意:这是为了更容易地演示这个想法,并不一定需要对算法进行编码。)
现在,想象你在回文“abaaba”的中心画一条假想的垂直线。你注意到P中的数字是围绕这个中心对称吗?这不仅是它,尝试另一个回文“aba”,数字也反映类似的对称性。这是巧合吗?答案是肯定的,没有。这只是真的受到一个条件,但无论如何,我们有很大的进步,因为我们可以消除重新计算部分P [i]。
让我们继续一个稍微更复杂的例子,更多一些重叠的回文,其中S =“babcbabcbaccba”。
上图显示了从S =“babcbabcbaccba”转换的T. 假设您达到了表P部分完成的状态。实竖线表示回文“abcbabcba”的中心(C)。两个虚线垂直线分别表示其左(L)和右(R)边。你在索引i,它的镜像索引围绕C是i'。你如何有效地计算P [i]?
假设我们已经到达索引i = 13,并且我们需要计算P [13](由问号?表示)。我们首先看看它在回文中心C周围的镜像索引i',其索引i'= 9。
上面的两个绿色实线表示以i和i'为中心的两个回文覆盖的区域。我们看看C周围的镜像索引,这是索引i'。P [i'] = P [9] = 1。很明显,由于围绕其中心的回文的对称性质,P [i]也必须为1。
从上面可以看出,很明显,P [i] = P [i'] = 1,由于回文中心周围的对称属性,它必须是真的。事实上,C之后的所有三个元素遵循对称性质(即P [12] = P [10] = 0,P [13] = P [9] = 1,P [14] = P [8] 0)。
现在我们在索引i = 15。P [i] 的值是多少?如果我们遵循对称性质, P [i] 的值应该与P [i'] = 7相同。但是这是错误的。如果我们在T 15周围围绕中心扩展,则它形成回文“a#b#c#b#a”,其实际上比由对称副本指示的回文短。为什么?
很清楚,由两条实线所示的区域中的两个子串必须精确匹配。中心区域(用绿色虚线表示)也必须是对称的。小心注意,P [i']是7,并且它一直扩展到回文的左边缘(L)(由实线红线表示),其不再落在回文的对称属性之下。所有我们知道的是 P [i] ≥5,并且为了找到P [i]的实际值,我们必须通过扩展超过右边缘(R)进行字符匹配。在这种情况下,由于P [21]≠P [1],我们得出结论P [i] = 5。
让我们总结一下这个算法的关键部分如下:
则 P [i]←P [i']
否则 P [i]≥P[i']。(我们必须扩展超过右边缘(R)才能找到P [i]。
看看它是多么优雅?如果你能够完全掌握上面的总结,你已经获得了这个算法的本质,这也是最难的部分。
最后一部分是确定我们应该何时将C的位置与R一起移动到右边,这很容易:
在每个步骤中,有两种可能性。如果P [i]≤R-i,我们将P [i]设置为P [i'],其恰好采用一步。否则,我们尝试通过从右边缘开始扩展将回文中心改变为i。扩展R(内部while循环)最多总共需要N个步骤,并且定位和测试每个中心总共需要N个步骤太。因此,该算法保证在最多2 * N步完成,给出线性时间解。
// Transform S into T.
// For example, S = "abba", T = "^#a#b#b#a#$".
// ^ and $ signs are sentinels appended to each end to avoid bounds checking
string preProcess(string s) {
int n = s.length();
if (n == 0) return "^$";
string ret = "^";
for (int i = 0; i < n; i++)
ret += "#" + s.substr(i, 1);
ret += "#$";
return ret;
}
string longestPalindrome(string s) {
string T = preProcess(s);
int n = T.length();
int *P = new int[n];
int C = 0, R = 0;
for (int i = 1; i < n-1; i++) {
int i_mirror = 2*C-i; // equals to i' = C - (i-C)
P[i] = (R > i) ? min(R-i, P[i_mirror]) : 0;
// Attempt to expand palindrome centered at i
while (T[i + 1 + P[i]] == T[i - 1 - P[i]])
P[i]++;
// If palindrome centered at i expand past R,
// adjust center based on expanded palindrome.
if (i + P[i] > R) {
C = i;
R = i + P[i];
}
}
// Find the maximum element in P.
int maxLen = 0;
int centerIndex = 0;
for (int i = 1; i < n-1; i++) {
if (P[i] > maxLen) {
maxLen = P[i];
centerIndex = i;
}
}
delete[] P;
return s.substr((centerIndex - 1 - maxLen)/2, maxLen);
}
注意:
这个算法肯定是不平凡的,你不会在面试准备期间想出这样的算法。但是,我希望你喜欢阅读这篇文章,希望它能帮助你理解这个有趣的算法。你应该得到一个掌声,如果你走了这么远!
进一步的想法:
有用的链接:
» Manacher的算法O(N)时间求字符串的最长回文子串(最好的解释,如果你可以阅读中文)
»一个简单的线性时间算法寻找最长的回文子串
»寻找Palindromes
»寻找最长的回文子线性时间
»维基百科:最长回文子串