后缀数组(Suffix Array):将某个字符串的所有后缀按字典序排序后得到的数组。
算法:朴素实现:直接将所有后缀进行排序,将n个长度为O(n)的字符串进行排序,时间复杂度O(n^2*logn);倍增算法:通过充分利用各个后缀之间的联系,将构造后缀数组的最坏时间复杂度成功降至O(n*logn)。
倍增法实现:首先计算从每个位置开始的长度为1的子串的顺序,再利用这个结果计算长度为2的子串的顺序,接下来计算长度为4的子串的顺序,不断倍增,直到长度大于等于n就得到了后缀数组。
下面,我们用sa[i]表示按字典序排序后第i小子串的开始位置;用S[sa[i],k]表示从位置sa[i]开始的长度为k的字符串子串,其中,剩余字符不足k个时,表示的是从sa[i]开始到字符串末尾的子串;rank[sa[i]]为S[sa[i],k]在所有排好序的长度为k的子串中是第几小的(核心:rank[sa[i]]=i,其中i代表第几小)。
最后,从每个位置开始的排序部分,因为比较rank[sa[i]]和rank[sa[j]]就相当于比较S[sa[i],k]和S[sa[j],k],比较rank[sa[i]+k]和rank[sa[j]+k]就相当于比较S[i+k,k]和S[j+k,k](或S[i,2*k]和S[j,2*k])。所以,我们可以利用上一步的rank来高效地比较长度为2*k的子串,并将它们排序。
代码:
int n,k;
int rank[max_n+1];
int tmp[max_n+1];
//比较(rank[i],rank[i+k])和(rank[j],rank[j+k])
bool cmp_sa(int i,int j)
{
if(rank[i]!=rank[j]) return rank[i]<rank[j];
else{
int ri=i+k<=n?rank[i+k]:-1;
int rj=j+k<=n?rank[j+k]:-1;
return ri<rj;
}
}
//计算字符串S的后缀数组
void creat_sa(string S,int *sa)
{
n=S.length();
//初始长度为1,rank直接取字符的编码
for(int i=0;i<=n;i++)
{
sa[i]=i;
rank[i]=i<n?S[i]:-1;
}
//利用对长度为k的排序的结果对长度为2*k的排序
for(k=1;k<=n;k*=2)
{
sort(sa,sa+n+1,cmp_sa);
//先在tmp中临时储存新计算的rank,再转存回rank中
tmp[sa[i]]=0;
for(int i=1;i<=n;i++)
tmp[sa[i]]=tmp[sa[i-1]]+(cmp_sa(sa[i-1],sa[i])?1:0);
for(int i=0;i<=n;i++)
rank[i]=tmp[i];
}
}