后缀数组在处理字符串中发挥了很大的作用,它通常与最长公共前缀一起处理字符串。列出后缀数组的构造和公共前缀的求取方法,留着以后用。
#include<stdio.h>
#include<cstring>
#define maxn 1000
int wa[maxn],wb[maxn],wv[maxn],ws[maxn];
int cmp(int *r,int a,int b,int len)
{return r[a]==r[b]&&r[a+len]==r[b+len];}
//构造后缀数组sa[]
void da(char *r,int *sa,int n,int m)
{
int i,j,p,*x=wa,*y=wb,*t;
for(i=0;i<m;i++) ws[i]=0;
for(i=0;i<n;i++) ws[x[i]=r[i]]++;
for(i=1;i<m;i++) ws[i]+=ws[i-1];
for(i=n-1;i>=0;i--) sa[--ws[x[i]]]=i;
//
for(i=0;i<n;i++) printf("%d\t",sa[i]);
printf("\n");
for(j=1,p=1;p<n;j*=2,m=p)
{
for(p=0,i=n-j;i<n;i++) y[p++]=i;
for(i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j;
for(i=0;i<n;i++) wv[i]=x[y[i]];
for(i=0;i<m;i++)ws[i]=0;
for(i=0;i<n;i++) ws[wv[i]]++;
for(i=1;i<m;i++) ws[i]+=ws[i-1];
for(i=n-1;i>=0;i--) sa[--ws[wv[i]]]=y[i];
for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i<n;i++)
x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
}
return;
}
//求后缀数组得最长公共前缀利用性质:h[i]>=h[i-1]-1;h[i]=height[rank[i]];height[i]=h[sa[i]];sa[rank[i]]=i;
void cal_height(char r[],int sa[],int rank[],int height[],int n){
int i,j=0,k=0;
for(i=0;i<n;i++)
{
if(rank[i]==0) height[rank[i]]=0;
else {
if (k>0) k--;
j=sa[rank[i]-1];
for(;r[i+k]==r[j+k];k++);//k相当于h[i];
height[rank[i]]=k;
}//最后求的的height[j]:排名相邻得两个后缀得最长公共前缀=lcp(suf[j],suf[j-1]),j=rank[i];
}
}
void main()
{
char *str="aabaaaab"; //strlen=长度为8
int sa[maxn],height[maxn];
da(str,sa,strlen(str),CHARLEN);
for(int i=0;i<(int)strlen(str);i++)
printf("%d\t",sa[i]); //sa[]为后缀数组
printf("\n");
for(i=0;i<(int)strlen(str);i++)
printf("%d\t",wb[i]); //wb为名次数组
printf("\n");
cal_height(str,sa,rank,height,strlen(str));
for(i=0;i<(int)strlen(str);i++)
printf("%d\t",height[i]);//height数组
}
使用倍增发构造后缀数组理解比较难,可以改用快速排序得到sa,然后根据性质得到rank.