解题思路:后缀数组的写法一开始看有些匪夷所思,花了我半天时间才解析完,理解内涵。
关于height,详见我的另一篇后缀数组分组中的博客。
也推荐几篇:https://blog.csdn.net/w4149/article/details/72972180(代码解析)
https://www.cnblogs.com/shanchuan04/p/5324009.html(原理讲解)
https://www.cnblogs.com/jinkun113/p/4743694.html(原理讲解)
题意: 给出两个字符串, 求他们的最长公共子串
后缀数组建立后缀优先级的复杂度为O(nlogn),n为字符串的长度。用height求解的复杂度大致为O(n),所以总的复杂度是O(nlogn)。用后缀数组求公共子串是一个典型用法。
再补充很重要的一点,要在原来字符串后面加入一个比任何字符都要小的字符。所以直接幅值ACSII为0的。至于为什么要+0,下面这篇论文做出了解释https://wenku.baidu.com/view/5b886b1ea76e58fafab00374.html。
大概的原因就是 当y[sa[i-1]] == y[sa[i]] 时,说明y[sa[i-1]] 和y[sa[i]]中都不包括y[n-1](因为y[n-1]比谁都小,独一无二),这样 y[sa[i-1]+k] 和y[sa[i]+k]就肯定不会越界,前面已经说明,不包括则距离边界一定差k以上。
#include<cstdio>
#include<cstring>
#include<algorithm>
#define N 200005
using namespace std;
char s[N];
int sa[N],t1[N],t2[N],c[N],rnk[N],height[N],n;
void build_sa(int m)
{
int *x = t1, *y = t2;
for(int i=0; i<m; i++) c[i] = 0;
for(int i=0; i<n; i++) c[x[i] = s[i]]++;
for(int i=1;i<m;i++) c[i]+=c[i-1];//桶
for(int i=n-1;i>=0;i--) sa[--c[x[i]]]=i;
for(int k=1; k<=n; k = k<<1)
{
int p = 0;
//y是用来给第二关键字排序的
for(int i=n-k; i<n; i++) y[p++] = i; //后面几个第二关键字都没有,自然是最小的,排在前面
for(int i=0; i<n; i++) if(sa[i] >= k) y[p++] = sa[i]-k;//第二关键字的位置本来是sa[i],-k之后就变成它对应第一关键字的位置(直边所指)
for(int i=0; i<m; i++) c[i] = 0;//清空桶,要开始基数排序了
for(int i=0; i<n; i++) c[x[y[i]]]++;
for(int i=0; i<m; i++) c[i] += c[i-1];
for(int i=n-1; i>=0; i--) sa[--c[x[y[i]]]] = y[i];
swap(x,y);
p = 1; x[sa[0]] = 0;//从0开始赋值
for(int i=1; i<n; i++)//如果说第一关键字和第二关键字都和前面相同,那就给一个和前面一样的键值,否则就给一个新的更高的键值
x[sa[i]] = y[sa[i-1]] == y[sa[i]] && y[sa[i-1]+k] == y[sa[i]+k] ? p-1 : p++;
if(p >= n) break;//已经分出胜负了,各不相同
m = p;
}
}
void getheight()
{
int i,j,k = 0;
for(int i=0; i<n; i++) rnk[sa[i]] = i;
for(i = 0; i < n; i++)
{
if(k) k--;//h[i]>=h[i-1]-1
if(rnk[i] == 0)
{
height[rnk[i]] = 0;
continue;
}
j = sa[rnk[i]-1];
while(s[i+k] == s[j+k]) k++;
height[rnk[i]] = k;
}
}
int main()
{
//freopen("t.txt","r",stdin);
while(scanf("%s",s)!=EOF)
{
int l=strlen(s);
s[l]='&';
scanf("%s",s+l+1);
n=strlen(s);
s[n++]=0;
build_sa(128);//128个ASCII码
int ans = 0;
getheight();
for(int i=1;i<n;i++)
{
if((sa[i] > l && sa[i-1] < l) || (sa[i] < l && sa[i-1] > l))
{
ans = max(ans,height[i]);
}
}
printf("%d\n",ans);
}
return 0;
}