题意:给定一个字符串,求不相同子串的个数
思路:每个子串一定是某个后缀的前缀,那么原问题等价于求所有后缀之间的不相同的前缀的个数。如果所有的后缀按照suffix(sa[1]), suffix(sa[2]),suffix(sa[3]), …… ,suffix(sa[n])的顺序计算,不难发现,对于每一次新加进来的后缀suffix(sa[k]),它将产生n-sa[k]+1 个新的前缀。但是其中有height[k]个是和前面的字符串的前缀是相同的。所以suffix(sa[k])将“贡献”出n-sa[k]+1- height[k]个不同的子串。累加后便是原问题的答案。这个做法的时间复杂度为O(n)。
#include<iostream>
#include<cstdio>
#include<cstring>
#include<string>
using namespace std;
const int maxn=50010;
const int INF=0x3f3f3f3f;
string s;
int w[maxn],wa[maxn],wb[maxn],wv[maxn],r[maxn],sa[maxn],rank[maxn],height[maxn],n,ans,T;
int cmp(int *r,int a,int b,int l)
{
return r[a]==r[b] && r[a+l]==r[b+l];
}
void make_sa(int *r,int *sa,int n,int m)
{
int i,j,p;
int *x=wa,*y=wb,*t;
for (i=0;i<m;i++) w[i]=0;
for (i=0;i<n;i++) w[x[i]=r[i]]++;
for (i=1;i<m;i++) w[i]+=w[i-1];
for (i=n-1;i>=0;i--) sa[--w[x[i]]]=i;
for (p=1,j=1;p<n;j*=2,m=p)
{
for (p=0,i=n-j;i<n;i++) y[p++]=i;
for (i=0;i<n;i++) if (sa[i]>=j) y[p++]=sa[i]-j;
for (i=0;i<m;i++) w[i]=0;
for (i=0;i<n;i++) w[wv[i]=x[y[i]]]++;
for (i=1;i<m;i++) w[i]+=w[i-1];
for (i=n-1;i>=0;i--) sa[--w[wv[i]]]=y[i];
for (t=x,x=y,y=t,p=1,i=1,x[sa[0]]=0;i<n;i++)
x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
}
}
void make_height(int *r,int *sa,int n)
{
int i,j,k=0;
for (i=1;i<=n;i++) rank[sa[i]]=i;
for (i=0;i<n;height[rank[i++]]=k)
for (k?k--:0,j=sa[rank[i]-1];r[i+k]==r[j+k];k++);
return;
}
int main()
{
cin>>T;
while(T--)
{
cin>>s;
n=s.length();
for(int i=0;i<n;i++)
r[i]=s[i];
r[n]=0;
make_sa(r,sa,n+1,300);
make_height(r,sa,n);
int ans=0;
for(int i=1;i<=n;i++)
ans+=((n-1)-sa[i]+1)-height[i];
cout<<ans<<endl;
}
return 0;
}