【后缀数组】学习笔记

最新推荐文章于 2022-09-15 18:35:55 发布

ff_666

最新推荐文章于 2022-09-15 18:35:55 发布

阅读量486

点赞数 1

分类专栏：后缀数组算法整理文章标签：后缀数组算法整理

本文链接：https://blog.csdn.net/qq_42403731/article/details/88045151

版权

算法整理同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

后缀数组

1 篇文章 0 订阅

订阅专栏

看大佬A
看大佬B

后缀数组

一个字符串处理的神器，并且代码简短精悍
~~但是自我感觉极其难懂，二十行代码研究数晚，综合多位大佬博客才搞懂~~
下文代码注释中的字母被和谐了。。请选中查看

基数排序

后缀数组的重要一部分，必须彻底理解，不然就会卡壳！！！
想法也不难，就是从最低位到最高位 $(L S D)$ 或最高到最低 $(M S D)$ 按位脱离，不通过元素比较，而根据“收集”来确定元素大小关系
举例看这里

void RadixSort(){//LSD
	for(int D=1;Max;D*=10,Max/=B){
		for(int i=0;i<B;i++) cnt[i]=0;
		for(int i=1;i<=n;i++) cnt[a[i]/D%B]++;
		for(int i=0;i<B;i++) cnt[i]+=cnt[i-1];
		//作前缀和，便于定位到前面有几个比我小的，确定排名（位置） 
		for(int i=n;i;i--) tp[cnt[a[i]/D%B]--]=a[i];//临时数组存放 
		for(int i=1;i<=n;i++) a[i]=tp[i];
	}
}

复杂度 $O (N * D (位数) * k (小常数))$ ，能使后缀数组的构造少掉一个基于元素比较排序的 $l o g$ ，这个下文就知道了

正题

首先，定义一坨变量：

（接下来以后缀的起始位置作为后缀的位置，第 $i$ 号后缀表示 $s [i$ ~~ $N]$ ）

$S a [i] : 排名为 i 的后缀在串中的位置$
$R a k [i] : 第 i 号后缀的排名$
$t p [i] : 第二关键字排名为 i 的位置，类似 S a [i] （下面会解释）$
$H e i g h t [i] : 排名为 i 与 i - 1 的后缀的最长公共前缀$

通俗地说，Sa[i]表示第i是谁，Rak[i]表示i是第几，两者是互逆的
- Sa[Rak[i]]=Rak[Sa[i]]=i
核心想法：倍增（本蒟蒻太弱了，不会O(N)的DC3~~虽然好像一般不太需要~~）

假设已经求出每个后缀往后 $2^k$ 的排名，然后考虑往后扩展 $2^k$ 到 $2^{k+1}$
那么显然我们可以看成是双关键字排序:
- $S[i]=\{A(前2^k的排名，已求),B(后2^k的排名)\}$
而后面可以看到，由于后缀的特殊关系，我们可以线性求得B，在利用基数排序，我们就可以 $O(N*log_N)$ 完成后缀数组的构造（Height先扔一边，最后再搞）
代码细节解释

等

先再看一下上面数组定义，理解记忆，不然绝对蒙圈！

磨刀不误砍柴工！！！

首先对所有后缀以开头字母为关键字排序

  M=127;for(int i=1;i<=N;i++) Rak[i]=s[i],tp[i]=i;//M为基数排序的上界（优化） 
  RadixSort();

接下来是倍增板块

 for(int w=1,p=0;p<N;M=p,w<<=1){
 	//w表示当前已对w位排序，接下来要给2w位排序 
 	//p表示离散后的Rak数，若排名各不相同即可停止 
 }

核心：每个后缀的第二关键字取得位置（构造 $t p []$ ）：
看图：
显然，黄色部分是相同的，那么就可以O(1)求得 $t p [i]$ 了

 p=0;//这里p仅仅是个计数器 
 for(int i=1;i<=w;i++) tp[++p]=N-w+i;//对于后w个后缀是没有第二关键字的，我们把它塞前面 
 for(int i=1;i<=N;i++) if(Sa[i]>w) tp[++p]=Sa[i]-w;
 //基数排序，按第一关键字的顺序
 //原理就是上图，即第Sa[i]-w号后缀的第二关键字的排名为i

然后就很简单了，基数排序后，通过 $S a []$ 与 $R a k []$ 的互逆运算，对 $R a k []$ 就行构造与离散（此时很有可能会出现相同名次，但最后必定不同，毕竟后缀长度都不同）

 RadixSort(),memcpy(tp,Rak,sizeof tp),Rak[Sa[1]]=p=1;//现在tp没用了，我们把Rak存过来，用于离散 
 for(int i=2;i<=N;i++)
    Rak[Sa[i]]=(tp[Sa[i]]==tp[Sa[i-1]]&&tp[Sa[i]+w]==tp[Sa[i-1]+w])?p:++p;//简单的双关键字离散

这里有个小问题： $S a [i] + w 不会爆出 N 吗？$

我自己WW了一下，应该不会超过N+1
$首先，要比较 S a [i - 1] + w 与 S a [i] + w ，必定满足 t p [S a [i]] = = t p [S a [i - 1]]$
$那么既然有 t p [S a [i]] = = t p [S a [i - 1]] ，显然他们往后 w 个得到的字符串都得真实存在$
$所以最坏情况下往后延伸 w 个到达串的末尾，即为 N + 1$

所以可以加一道判段或在面对多组数据时记得清空数组到N+1!!!

再来看一眼基数排序 ~~~~实际上没什么好看的。。~~
就是以 $R a k [t p [i]]$ 为关键字排一排就好了（和上面没什么区别）
```
void RadixSort(){
  for(int i=0;i<=M;i++) cnt[i]=0;
  for(int i=1;i<=N;i++) cnt[Rak[tp[i]]]++;
  for(int i=1;i<=M;i++) cnt[i]+=cnt[i-1];
  for(int i=N;i;i--) Sa[cnt[Rak[tp[i]]]--]=tp[i];
}
```
完整过程代码

void RadixSort(){
    for(int i=0;i<=M;i++) cnt[i]=0;
    for(int i=1;i<=N;i++) cnt[Rak[tp[i]]]++;
    for(int i=1;i<=M;i++) cnt[i]+=cnt[i-1];
    for(int i=N;i;i--) Sa[cnt[Rak[tp[i]]]--]=tp[i];
}
void SuffixSort(){
    M=127;for(int i=1;i<=N;i++) Rak[i]=s[i],tp[i]=i;//M为基数排序的上界（优化） 
    RadixSort();
    for(int w=1,p=0;p<N;M=p,w<<=1){
    	//w表示当前已对w位排序，接下来要给2w位排序 
    	//p表示离散后的Rak数，若排名各不相同即可停止 
        p=0;//这里p仅仅是个计数器 
        for(int i=1;i<=w;i++) tp[++p]=N-w+i;//对于后w个后缀是没有第二关键字的，我们把它塞前面 
        for(int i=1;i<=N;i++) if(Sa[i]>w) tp[++p]=Sa[i]-w;
		//基数排序，按第一关键字的顺序
        //原理就是上图，即第Sa[i]-w号后缀的第二关键字的排名为i 
        RadixSort(),memcpy(tp,Rak,sizeof tp),Rak[Sa[1]]=p=1;//现在tp没用了，我们把Rak存过来，用于离散 
        for(int i=2;i<=N;i++)
          Rak[Sa[i]]=(tp[Sa[i]]==tp[Sa[i-1]]&&tp[Sa[i]+w]==tp[Sa[i-1]+w])?p:++p;//简单的双关键字离散 
    }
}

Height

这个才是后缀数组的真正神器！！！

$H e i g h t [i] : 第 i 名后缀与第 i - 1 名后缀的最长公共前缀$ ~~（有点绕）~~
$H [i] : 第 i 号后缀与它前一名的后缀的最长公共前缀（ H e i g h t [R a k [i]] ）$

为了线性构造，要用到一个神奇的性质： $H [i] > = H [i - 1] + 1$

$设第 k 号后缀是第 i - 1 号后缀前一名的后缀，它们的最长公共前缀是 H [i - 1]$
$如果 H [i - 1] < = 1, 则原命题显然成立$
$否则第 k + 1 号后缀将排在第 i 号后缀的前面，并且第 k + 1 号后缀与第 i 号后缀的最长公共前缀至少是 H [i - 1] - 1 （两个后缀各去掉一个首字母，接下来的 H [i - 1] - 1 个必定相同）$

所以我们就可以按照 $R a k [1$ ~~ $N]$ 的顺序O(N)计算了

void GetHeight(){
	for(int i=1,j,k=0;i<=N;i++)if(Rak[i]>1){
		j=Sa[Rak[i]-1],k-=(bool)k;
		while(i+k<=N&&j+k<=N&&s[i+k]==s[j+k]) k++;
		Height[Rak[i]]=k;
	}
}

神器在手，天下我有,接下来就可以做很多套路了

本质不同的字串个数

$\sum N-Sa[i]+1-Height[i]$
第 $i$ 名后缀的长度减去与前面重复的长度
两个后缀的最长公共前缀

$M i n (H e i g h t [R a k [x] + 1$ ~~ $R a k [y]])$ ，RMQ预处理，O(1)询问
可重叠的最长重复字串

$M a x (H e i g h t [i])$
不可重叠的最长重复字串

先二分答案，把题目变成判定性问题：判断是否存在两个长度为 $K$ 的子串是相同的且不重叠
先不考虑重叠，则重复子串的长度要大于等于 $k$ ，就是一个区间内 $H e i g h t [i] > = K$
所以我们对 $H e i g h t$ 分组，满足每一组的 $H e i g h t [i] > = K$
再来考虑重叠:
我们知道了一个区间的 $H e i g h t [i] > = K$ ，那么如果存在两个后缀距离大于 $K$ ，那么可以肯定存在两个长度为 $K$ 的子串是相同的，且不重叠