基本概念
字符串后缀:从字符串的某个位置到其末尾的字符串子串,我们认为原串和空串也是后缀。
后缀数组:将某个字符串的所有后缀按字典序排序后得到的数组,但是数组不直接存放字符串后缀,而是存放对应的起始位置。
计算后缀数组
基本思想是倍增。
先求出长度为2的所有子串的顺序,然后据此求出长度为4的所有子串的顺序,再然后求长度为8的子串的顺序,依此倍增。直到串的长度大于等于原字符串的长度n。
假设已经求出所有长度为k的子串的顺序,现在要求长度为2k的子串的顺序。将长度为2k的子串分成2个长度为k的子串x和y。这两个子串的顺序我们已经求出,对任意两个长度为2k的子串,我们只需对应比较其x子串和y子串的顺序即可。
比如比较子串”abrs”与子串“bcrc”,只需比较“ab”与“bc“的顺序就可确定”abrs“与”bcrc“的顺序。
时间复杂度O(nlogn^2).空间复杂度O(n).
后缀数组模板
输入:字符串s
输出:字符串s的后缀数组sa
代码
#include <bits/stdc++.h>
using namespace std;
const int maxn=121;
int n,k;
int rank[maxn+1],sa[maxn+1];
int tmp[maxn+1];
//比较(rank[i],rank[i + k] )和 ( rank[j],rank[j+k] )
bool compare_sa(int i,int j)
{
if(rank[i]!=rank[j]) return rank[i]<rank[j];
else
{
int ri=i+k<=n?rank[i+k]:-1;
int rj=j+k<=n?rank[j+k]:-1;
return ri<rj;
}
}
void construct_sa(string s)
{
n=s.length();
//初始化长度为1,rank直接取字符的编码
for(int i=0;i<=n;i++)
{
sa[i]=i; //把sa看作字符串
rank[i]=i<n?s[i]:-1; //rank看作字符串的排名
}
//利用对长度为k的排序的结果对长度为2k的排序
for(k=1;k<=n;k*=2)
{
sort(sa,sa+n+1,compare_sa);
//先在tmp中临时存储新计算的rank,再转存回rank中
tmp[sa[0]]=0;
for(int i=1;i<=n;i++)
{
//三目运算符的括号必须加
tmp[sa[i]]=tmp[sa[i-1]]+(compare_sa(sa[i-1],sa[i])?1:0); //因为相同字符rank相同,所以不能直接按sort后的结果来安排rank
}
for(int i=0;i<=n;i++) rank[i]=tmp[i];
}
}
int main()
{
string s;
while(cin>>s)
{
construct_sa(s);
int len=s.size();
for(int i=0;i<=len;i++)
cout<<i<<" "<<sa[i]<<endl;
}
return 0;
}