后缀数组 (SA) 是一种重要的数据结构,通常使用倍增或者DC3算法实现,这超出了我们的讨论范围。
在本题中,我们希望使用快排、Hash与二分实现一个简单的O(nlog2n)O(nlog2n)的后缀数组求法。
详细地说,给定一个长度为 n 的字符串S(下标 0~n-1),我们可以用整数 k(0≤k<n0≤k<n) 表示字符串S的后缀 S(k~n-1)。
把字符串S的所有后缀按照字典序排列,排名为 i 的后缀记为 SA[i]。
额外地,我们考虑排名为 i 的后缀与排名为 i-1 的后缀,把二者的最长公共前缀的长度记为 Height[i]。
我们的任务就是求出SA与Height这两个数组。
输入格式
输入一个字符串,其长度不超过30万。
字符串由小写字母构成。
输出格式
第一行为数组SA,相邻两个整数用1个空格隔开。
第二行为数组Height,相邻两个整数用1个空格隔开,我们规定Height[1]=0。
输入样例:
ponoiiipoi
输出样例:
9 4 5 6 2 8 3 1 7 0
0 1 2 1 0 0 2 1 0 2
题意:
取原字符串的每个后缀,然后根据字典序排这些后缀(每个后缀后对应一个起点下标),第一行输出排完序的后缀的起点位置序列,第二行按从前往后的顺序输出每两个排名相邻的后缀的最大公共前缀的长度。
思路:
因为排序固定复杂度n*(logn),朴素做法o(n)比较两后缀会超时,所以可以采用字符串hash和二分结合的方法,o(logn)地快速找到两后缀的最大公共前缀长度。
具体过程:二分公共前缀的长度,然后用hash o(1)地判断两前缀是否相等,最后二分完,即可返回公共前缀的长度。(该过程复杂度logn)
然后两后缀的该公共前缀长度的下一个位置的字符的大小关系决定了后缀的字典序关系(因为字典序是从前往后比较两字符串的字符,只要当前字符串的当前字符小则判定当前字符串的字典序小,后面的字符就不再比较了)
完整代码:
#include <iostream>
#include <algorithm>
#include <cstring>
#include <limits.h>
using namespace std;
const int maxn=3e5+5,power=131;
typedef unsigned long long ull;
char str[maxn];
int id[maxn],n;
ull h[maxn],p[maxn];
ull get(int l,int r)
{
return h[r]-h[l-1]*p[r-l+1];
}
int get_max_common_prefix(int a,int b)//得到以a和b为后缀起点下标的后缀的最大公共前缀的长度
{
int l=0,r=min(n-a+1,n-b+1);//二分两后缀的最大公共前缀的长度
while(l<r){
int mid=l+r+1>>1;
if(get(a,a+mid-1)!=get(b,b+mid-1)) r=mid-1;//用hash o(1)判断两前缀是否相等
else l=mid;
}
return l;
}
bool cmp(int a,int b)//返回以a为后缀起点下标的后缀的字典序是否小于以b为后缀起点下标的后缀的字典序
{
int len=get_max_common_prefix(a,b);//先得到以a和b为后缀起点下标的后缀的最大公共前缀的长度
int va=a+len>n?INT_MIN:str[a+len];//判断该公共前缀的后一位是否为空,为空则字典序绝对比另一个非空的小,所以赋值为INT_MIN
int vb=b+len>n?INT_MIN:str[b+len];//若判断结果不空,则根据两后缀的该公共前缀的下一个位置的字母str[b+len]的字典序关系得到两后缀字典序关系
return va<vb;
}
int main()
{
scanf("%s",str+1);
n=strlen(str+1);
p[0]=1;
for(int i=1;i<=n;i++){
h[i]=h[i-1]*power+str[i]-'a'+1;
p[i]=p[i-1]*power;
id[i]=i;
}
sort(id+1,id+n+1,cmp);//按照起点对应的后缀字典序排起点下标
for(int i=1;i<=n;i++) cout<<id[i]-1<<" ";
cout<<endl;
for(int i=1;i<=n;i++){
if(i==1) cout<<0<<" ";
else cout<<get_max_common_prefix(id[i],id[i-1])<<" ";
}
cout<<endl;
return 0;
}