后缀
我们定义在字符串s中,从i一直到末尾的子串为suff[i],即以i为起点的后缀
后缀数组
用sa来表示,sa[i]表示;排名为i的后缀的开头在sa[i]处(即sa[i]——n这个后缀的排名为i)
后缀数组的思想
如果我们直接用暴力去求这个数组,很容易想到直接sort所有后缀(
O(nlogn)
O
(
n
l
o
g
n
)
),而比较两个字符串的大小的复杂度为
O(n)
O
(
n
)
,所以总复杂度为
O(n2logn)
O
(
n
2
l
o
g
n
)
,显然无法接受。
而后缀数组用到的是一种类似于倍增的思路,考虑我们如果知道了长度为n的子串的排名,可以通过相邻两段合并快速求得长度为2*n的子串的排名。(相当于将第一段作为第一关键字,第二段作为第二关键字排序)而这个排序如果使用快排需要的复杂度是
O(nlogn)
O
(
n
l
o
g
n
)
,倍增复杂度为
O(logn)
O
(
l
o
g
n
)
,总复杂度为
O(nlog2n)
O
(
n
l
o
g
n
2
)
,似乎还是有点高。于是我们想到了复杂度为
O(字符串位数∗长度)
O
(
字
符
串
位
数
∗
长
度
)
的基数排序,因为字符串长度始终为2(第一次为1),便能将复杂度降低至
O(nlogn)
O
(
n
l
o
g
n
)
具体实现请看代码
(以洛谷P3809 【模板】后缀排序为例)
#include <bits/stdc++.h>
using namespace std;
const int maxn=1e6+100;
int n,m,num;
char s[maxn];
int x[maxn],y[maxn],sa[maxn],c[maxn];
void get_sa()
{
for(int i=1;i<=n;i++) ++c[x[i]=s[i]];//1.将字符串s的ascall码赋给数组x 2.c为基数排序中的大桶,此时统计每个桶中的元素个数
for(int i=2;i<=m;i++) c[i]+=c[i-1];//类似于前缀和,求出每个桶的真实排名
for(int i=n;i>=1;i--) sa[c[x[i]]--]=i;//求出长度为1的子串的sa
for(int k=1;k<=n;k<<=1)
{
num=0;//y[i]表示第二关键字排名为i的数,第一关键字的开头在哪里
for(int i=n-k+1;i<=n;i++) y[++num]=i;//以n-k+1到n开头的子串没有第二关键字,所以排名肯定是最前的
for(int i=1;i<=n;i++) if(sa[i]>k) y[++num]=sa[i]-k;//如果一个子串的sa值大于k,说明他能作为第二关键字,统计y值
for(int i=1;i<=m;i++) c[i]=0;//初始化c
for(int i=1;i<=n;i++) ++c[x[i]];//x在上一轮循环已经求出,直接统计即可
for(int i=2;i<=m;i++) c[i]+=c[i-1];// 类似于前缀和,求出每个桶的真实排名
for(int i=n;i>=1;i--) sa[c[x[y[i]]]--]=y[i],y[i]=0;//这句话是最难理解的,需要自己慢慢品味
//y[i]___第二关键字排名为i的数,第一关键字的位置
//x[y[i]]___第二关键字排名为i的数,第一关键字是什么
//c[x[y[i]]]___第二关键字排名为i的数,第一关键字所在的大桶
//c[x[y[i]]]--___在同一个大桶内,第二关键字排名越靠后,总排名就越靠后(注意i是从n到1)
//sa[c[x[y[i]]]--]=y[i]___将排名分给这个位置
//y[i]=0,清空y,为后面swap(x,y)做准备,相当于将x清空了
swap(x,y);//后面需要用到旧的x求新的x,所以需要用y数组当一下跳板(前面y已经清空,此时x是空的)
x[sa[1]]=1,num=1;
for(int i=2;i<=n;i++)
x[sa[i]]=(y[sa[i]]==y[sa[i-1]]&&y[sa[i]+k]==y[sa[i-1]+k])?num:++num;//求下一轮要用到的x数组
if(num==n) break;
m=num;
}
}
int main()
{
scanf("%s",s+1);
n=strlen(s+1);m=122;
get_sa();
for(int i=1;i<=n;i++) printf("%d ",sa[i]);
printf("\n");
return 0;
}
那么我们现在就会求后缀数组sa了,但是似乎我们除了模板题之外,依然无法做任何题目。没错,一般题目都肯定不会让你只求个后缀的排名就完了,所以我们就需要经常和后缀数组一起使用的好伙伴——LCP。
LCP
定义LCP(i,j)表示suff[sa[i]]与suff[sa[j]]的最长公共前缀
LCP的几条性质
1.LCP(i,j)=LCP(j,i)
2.LCP(i,i)=n-sa[i]+1
3.LCP(i,k)=min(LCP(i,j),LCP(j,k)) 1 <= i <= j <= k <= n
4.LCP(i,k)=min(LCP(j-1,j)) 1 <= i < j <= k <= n
(3、4我还都不会证,先记下来吧,留个坑)
求LCP
定义height[i]为LCP(i,i-1),h[i]为height[rk[i]](height[i]=h[sa[i]])
(rk[i]表示suff[i]的排名,rk[sa[i]]=i,sa[rk[i]]=i)
**最重要的一条定理:**h[i] >= h[i-1]-1 (依旧不会证)
有了这条定理,便能大大减少我们需要比较的次数,然后依次求height[rk[1]]
−
−
<script type="math/tex" id="MathJax-Element-152">-</script>height[rk[n]]就可以了
具体实现请看代码
void get_height()
{
for(int i=1;i<=n;i++) rk[sa[i]]=i;//初始化rk数组
for(int i=1;i<=n;i++)
{
if(rk[i]==1) continue;//height[rk[1]]=0
if(k) k--;//h[i]>=h[i-1]-1
int j=sa[rk[i]-1];//获取前一排名后缀的位置
while(i+k<=n&&j+k<=n&&s[i+k]==s[j+k]) k++;//往后比较
height[rk[i]]=k;//求得height数组
}
}