SPOJ 694 Distinct Substrings(后缀数组)
题意:
给你一个长N的字符串,问你该字符串中出现了多少个不同的子串?
分析:
论文例题.点击打开链接
每个子串一定是某个后缀的前缀,那么原问题等价于求所有后缀之间的不相同的前缀的个数。如果所有的后缀按照suffix(sa[1]),suffix(sa[2]),suffix(sa[3]),……,suffix(sa[n])的顺序计算,不难发现,对于每一次新加进来的后缀suffix(sa[k]),它将产生n-sa[k]+1个新的前缀。但是其中有height[k]个是和前面的字符串的前缀是相同的。所以suffix(sa[k])将“贡献”出n-sa[k]+1-height[k]个不同的子串。累加后便是原问题的答案。这个做法的时间复杂度为O(n)。
首先建立后缀数组,求出sa和height数组.
对于任意子串,它必然是一个后缀的前缀.
然后依次从height[1]到height[n-1]来处理每个后缀.每个后缀会贡献n-1-sa[i]个不同的前缀,但是其中由height[i]个前缀子串是与前一个后缀贡献的前缀子串重复的,所以每个后缀会贡献n-1-sa[i]-height[i]个新的前缀子串(想想是不是).
AC代码:
#include<iostream>
#include<cstdio>
#include<cstring>
#include<algorithm>
using namespace std;
const int maxn=20000+100;
const int maxm=20000+100;
struct SuffixArray
{
char s[maxn];
int sa[maxn],rank[maxn],height[maxn];
int t1[maxn],t2[maxn],c[maxm],n;
void build_sa(int m)
{
int i,*x=t1,*y=t2;
for(i=0;i<m;i++) c[i]=0;
for(i=0;i<n;i++) c[x[i]=s[i]]++;
for(i=1;i<m;i++) c[i]+=c[i-1];
for(i=n-1;i>=0;i--) sa[--c[x[i]]]=i;
for(int k=1;k<=n;k<<=1)
{
int p=0;
for(i=n-k;i<n;i++) y[p++]=i;
for(i=0;i<n;i++)if(sa[i]>=k) y[p++]=sa[i]-k;
for(i=0;i<m;i++) c[i]=0;
for(i=0;i<n;i++) c[x[y[i]]]++;
for(i=1;i<m;i++) c[i]+=c[i-1];
for(i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i];
swap(x,y);
p=1;
x[sa[0]]=0;
for(i=1;i<n;i++)
x[sa[i]]= y[sa[i]]==y[sa[i-1]]&&y[sa[i]+k]==y[sa[i-1]+k]? p-1:p++;
if(p>=n) break;
m=p;
}
}
void build_height()
{
int i,j,k=0;
for(i=0;i<n;i++) rank[sa[i]]=i;
for(i=0;i<n;i++)
{
if(k)k--;
j=sa[rank[i]-1];
while(s[i+k]==s[j+k]) k++;
height[rank[i]]=k;
}
}
}sa;
int solve()
{
int ans=0;
for(int i=1;i<sa.n;i++)
{
ans+=sa.n-1-sa.sa[i]-sa.height[i];
}
return ans;
}
int main()
{
int t;
scanf("%d",&t);
while(t--)
{
scanf("%s",sa.s);
sa.n=strlen(sa.s)+1;
sa.s[sa.n-1]=0;
sa.build_sa(300);
sa.build_height();
printf("%d\n",solve());
}
return 0;
}