我们只要记录字符串每个后缀的起始位置,就可以表示字符串的每一个后缀。将这种表示按照后缀的字典序排序,就得到了后缀数组。下面用倍增法求后缀数组,每次计算从i开始,长度为k的字符串的字典序rank(i,k)利用基数排序的思想,我们已经计算好了rank(i,k),然后我们在rank(i,k)的基础上,rank(i+k,2k)进行排序,得到的排序结果就是rank(i,2k)的结果。下面代码给出了O(n*log^2 n)的复杂度实现,如果排序算法使用基数排序,可以将复杂度降到O(n*log n)
int n, k;
int rank[maxn];
int tmp[maxn];
bool compare(int i, int j) {
if(rank[i] != rank[j]) return rank[i] < rank[j];
else {
int ri = i + k <= n ? rank[i + k] : -1;
int rj = j + k <= n ? rank[j + k] : -1;
return ri < rj;
}
}
void calc_sa(char *s, int *sa) {
n = strlen(s);
//初始长度为1时
for (int i = 0; i <= n; i++) {
sa[i] = i;这样赋值,当用rank对sa进行排序后,sa的值就表示排名第i的后缀是谁
rank[i] = i < n ? s[i] : -1;//将每个字符的编码赋值给rank
}
for (k = 1; k <= n; k *= 2) {
std::sort(sa, sa + n + 1, compare);
//用新排序的sa和rank生成新的rank,存在tmp里,然后再赋值给rank
tmp[sa[0]] = 0;
for (int i = 1; i <= n; i++) {
tmp[sa[i]] = tmp[sa[i - 1]] + (compare(sa[i - 1], sa[i]) ? 1 : 0);
}
for (int i = 0; i <= n; i++) {
rank[i] = tmp[i];
}
}
}