后缀数组是处理字符串的有效工具,它的优点是代码短,速度快,内存小,功能强大。这里先介绍它的代码。
这里用的是倍增算法。
后缀数组:sa数组,它保存所有后缀排序后从小到大的序列。
名次数组:rank数组,rank[i] 保存的是Suffix(i)在所有后缀中从小到大排列的“名次”。
在寻找sa数组和rank数组的过程中:sa一定不会相同,如果字符串一样,则开头靠后的排名靠后;rank如果字符串一样则相同)
思路:用倍增的方法对每个字符开始的长度为2k的子字符串进行基数排序,求出排名,即rank值。k从0开始,每次加1。直至rank中的排名各不相同为止。
代码和数组含义:
/**************************************************
含义:
n:有n个字符
m:不同字符的个数(开始时有128个)
a[]:是原数组
rsort[i]:i出现了多少次
wr[i]:保存的是对第二关键字排序后的 第二关键字所指向的第一关键字
y[i]:(以第二关键字为排序依据)第二关键字是第i名的第一关键字所处的位置
**************************************************/
int n,m;
char a[];
int sa[],rank[],rsort[],wr[],y[];
bool cmp(int k1,int k2,int ln)
{
return wr[k1]==wr[k2]&&wr[k1+ln]==wr[k2+ln];
// 第一关键字 第二关键字
}
void get_sa()
{
//下面四句是基数排序
for(int i=0;i<=m;i++) rsort[i]=0;
for(int i=1;i<=n;i++) rsort[rank[i]=a[i]]++;//统计出现次数
for(int i=1;i<=m;i++) rsort[i]+=rsort[i-1];//统计大致排名
for(int i=n;i>=1;i--) sa[rsort[rank[i]]--]=i;//i从n-1开始循环,是因为当字符串中有相等的字符串时,默认靠前的字符串更小一些。
for(int ln=1,p=0,k=0;p<n/*当所有字符串都不同的时候,就可以提前结束了*/;ln*=2,m=p,k=0)// ln为当前子串的长度
{
for(int i=n-ln+1;i<=n;i++) y[++k]=i;//后面都是0,所以排前面
for(int i=1;i<=n;i++) if(sa[i]>ln)/*由 sa[i]-ln>0 得来*/ y[++k]=sa[i]-ln;//借上次排序结果sa[],对第二关键字进行排序
for(int i=1;i<=n;i++) wr[i]=rank[y[i]];//提取出每个字符串的第一关键字
//下面四句同是基数排序
for(int i=0;i<=m;i++) rsort[i]=0;
for(int i=1;i<=n;i++) rsort[wr[i]]++;
for(int i=1;i<=m;i++) rsort[i]+=rsort[i-1];
for(int i=n;i>=1;i--) sa[rsort[wr[i]]--]=y[i];
memcpy(wr,rank,sizeof(wr));//wr[]=rank[],可能有多个字符串的rank值是相同的,所以必须比较两个字符串是否完全相同,wr数组的值已经没有必要保存,为了节省空间,这里用wr数组保存rank值。
p=1;rank[sa[1]]=1;//p表示有多少不相同的子串
for(int i=2;i<=n;i++)
{
if(!cmp(sa[i],sa[i-1],ln)) p++;//看看排名相近的两个是否相同
rank[sa[i]]=p;//刷新rank的值
}
}
sa[0]=rank[0]=0;
}
例题(来源:caioj 1180)
下面是对后缀数组的新理解:
/*
y[i]:以第二关键字排序,排第i的字符串的开头在哪里
y[(第二关键字)排名]=(第一关键字)位置
当运用Rsort的时候,Rsort[i]表示i的排名的新排名(不会重复)
Rsort[(现)排名]=(新)排名
wr[i]:第二关键字排名第i的字符串 的第一关键字的排名
wr[(第二关键字)排名]=(第一关键字)排名
sa[排名]=位置
rank[位置]=排名
*/
#include<cstdio>
#include<cstring>
#include<algorithm>
using namespace std;
int a[1100000];char s[1100000];
int sa[1100000],rank[1100000];
int y[1100000],wr[1100000],Rsort[1100000];
bool cmp(int k1,int k2,int ln)
{
return wr[k1]==wr[k2]&&wr[k1+ln]==wr[k2+ln];
}
void get_sa(int n,int m)
{
memset(Rsort,0,sizeof(Rsort));
for(int i=1;i<=n;i++) Rsort[rank[i]=a[i]]++;
for(int i=1;i<=m;i++) Rsort[i]+=Rsort[i-1];
for(int i=n;i>=1;i--) sa[Rsort[rank[i]]--]=i;//原为 sa[rank[i]]=i,为了不让sa相等,所以弄了Rsort
int ln=1,p=0,k;
while(p<n)
{
k=0;
for(int i=n-ln+1;i<=n;i++) y[++k]=i;
for(int i=1;i<=n;i++) if(sa[i]-ln>0) y[++k]=sa[i]-ln;
memset(Rsort,0,sizeof(Rsort));
for(int i=1;i<=n;i++) Rsort[wr[i]=rank[y[i]]]++;
for(int i=1;i<=m;i++) Rsort[i]+=Rsort[i-1];
for(int i=n;i>=1;i--) sa[Rsort[wr[i]]--]=y[i];
memcpy(wr,rank,sizeof(rank));
p=1;rank[1]=1;
for(int i=2;i<=n;i++)
{
if(cmp(sa[i-1],sa[i],ln)==false) p++;
rank[sa[i]]=p;
}
m=p;ln*=2;
}
}
int main()
{
scanf("%s",s+1);
int n=strlen(s+1);
for(int i=1;i<=n;i++) a[i]=s[i]-'a'+1;
get_sa(n,128);
for(int i=1;i<n;i++) printf("%d ",sa[i]);
printf("%d\n",sa[n]);
return 0;
}
推荐:《后缀数组—heigh》http://blog.csdn.net/a_bright_ch/article/details/53516899