后缀数组应用之寻找重复出现过的最长子串
给定一个字符串s,假设该字符串内只包含数字和字母,试找出其重复出现的最长子串。
Sample Input:
strstr
thisisastringwhichisisisSample Output:
str
isis
《编程珠玑》最后一章有提到这个例子,书中使用了后缀数组这一技巧。后缀数组其实可以看作一个由字符串s倒数i个字符组成的子串的集合,其中0<i<s.length()
,例如 字符串strstr
的后缀数组为:
{r,tr,str,rstr,trstr,strstr}
得到这个集合之后,我们可以发现,最长重复子串其实变成了求该集合中任意两个元素的最长公共前缀的问题。因为在这个集合中,原字符串中的每个字符都会出现在集合中元素的首位,而如果有子串重复出现,那么该子串肯定会出现在某两个或者多个元素的公共前缀上。
接下来问题就变成了如何去寻找最长公共前缀,除了暴力搜素之外,我们可以考虑先对该集合中的元素按照字典序进行排序,然后依次比较相邻的元素,找出其中的最长公共前缀即可。
代码如下:
首先构造一个后缀数组:
vector<string>