后缀数组-后缀排序

Mint-hexagram

已于 2022-01-23 20:17:30 修改

阅读量926

点赞数 1

分类专栏：模板文章标签： c语言算法开发语言

于 2022-01-20 12:30:45 首次发布

本文链接：https://blog.csdn.net/Mint_hexagram/article/details/122577667

版权

模板专栏收录该内容

17 篇文章 0 订阅

订阅专栏

一、一些前置定义：

后缀数组主要指 $s a$ 和 $r k$ 这两个数组。
字符串下标从 $1$ 开始。
“ $s u f [i]$ ” (后缀 $i$ )表示以第 $i$ 个字符为开头的后缀。
$s a [i]$ 表示排名为 $i$ 的后缀的编号。
$r k [i]$ 表示后缀 $i$ 的排名。

二、后缀数组的求法：

1)纯暴力做法：

$s t r i n g$ + $s o r t$ .
一次字符串比较的复杂度为 $O (N)$ ,因此该算法的复杂度为 $O(n^2log n)$ 。

2) $O(nlog^2n)$ 的做法

该做法运用了倍增的思想。
先从长度为 $1$ 的字符串开始比较，然后对每次比较的字符串长度进行倍增处理。

#include<bits/stdc++.h>
using namespace std;
const int maxn=1e6+60;
int sa[maxn<<1],rk[maxn<<1],oldrk[maxn<<1];
int w=1,n;
char s[maxn];

bool cmp(int x,int y)
{
	return rk[x]==rk[y] ? rk[x+w]<rk[y+w] : rk[x]<rk[y];	
}//以rk[x]为第一关键字，以rk[x+w]为第二关键字

int main()
{
	scanf("%s",s+1);
	n=strlen(s+1);
	for(int i=1;i<=n;++i) sa[i]=i,rk[i]=s[i];
	for(w=1;w<n;w<<=1)
	{
		sort(sa+1,sa+n+1,cmp);
		memcpy(oldrk,rk,sizeof(rk));//因为rk的顺序会被改变，因此应当先把rk放到oldrk中
		for(int i=1,p=0;i<=n;++i)
		{
			if(oldrk[sa[i]]==oldrk[sa[i-1]] && oldrk[sa[i]+w]==oldrk[sa[i-1]+w]) rk[sa[i]]=p;
			else rk[sa[i]]=++p;
		}//去重
	}
	
	for(int i=1;i<=n;++i) printf("%d ",sa[i]);
	return 0;	
}

让我们考虑以下这样做为什么是合理的。
手动模拟以上的过程即可。

例：对于字符串 $a b a b$ （fxj语十级）
$s u f [1] = a b a b, s u f [2] = b a b, s u f [3] = a b, s u f [4] = b$ 。
先对进行一次 $w = 1$ 的排序。
得到从小到大的顺序 $a b a b$ , $a b$ , $b a b$ , $b$
在进行一次 $w = 2$ 的排序。
得到从小到大的顺序 $a b a b$ , $a b$ , $b$ , $b a b$
再进行一次w=4的排序
得到从小到大的顺序 $a b$ , $a b a b$ , $b$ , $b a b$ 。

总结：
倍增比较成立的根本原因是字符串比较的字典序中先比较前面的字符再比较后面的字符，最后比较长度。即如果一个字符串 $a$ 的前面任意一位z $i$ 大于另一个字符串 $b$ 的相同位置，则字符串 $a$ 一定大于字符串 $b$ ,后面的剩余部分不需要比较。

3）优化做法：

该算法的瓶颈主要在于排序，因此优化排序就能突破这一瓶颈。
可以用基数排序和计数排序优化到 $O (n l o g n)$ 甚至是 $O (n)$ 。
~~由于我并没有研究过基数排序因此这一优化将会推迟至我搞完基数排序~~
~~以及我觉得上面这个证明方式是真的太草率了因此一定会尽快补上严谨证明的!~~

三、 $h e i g h t$ 数组

1) $L C P$ (最长公共前缀）

两个字符串 $S$ 和 $T$ 就是最大的 $x$ $(x\le min(|S|,|T|))$ ,使得 $S_i$ $=$ $T_i$ $\ (\forall\ 1\le i \le x)$ 。
下文以 $l c p (i, j)$ 表示后缀 $i$ 和后缀 $j$ 的最长公共前缀（的长度）。

2） $h e i g h t$ 数组的定义

$h e i g h t [i]$ = $l c p (s a [i], s a [i - 1])$ ,即第 $i$ 名的后缀与它前一名的后缀的最长公共前缀。
$h e i g h t [i] = 0$ 。(可以看作一个规定，实际上并不存在 $h e i g h t [1]$ ）。

3） $O (n)$ 求 $h e i g h t$ 数组需要的一个引理

$\ge height[rk[i-1]]-1$ 。

翻译一下，后缀 $i$ 与后缀 $s a [r k [i] - 1]$ 的最长公共前缀长度大于等于后缀 $s a [r k [i - 1]]$ 与后缀 $s a [r k [i] - 2]$ 的最长公共前缀长度 $- 1$

证明:
先分类讨论
当 $height[rk[i-1]]\leq1$ 时，
上面的式子显然成立，因为右边小于等于 $0$ ，而左侧一定大于等于 $0$ 。
当 $h e i g h t [r k [i - 1] > 1$ 时，
设后缀 $i - 1$ 为 $a A D$ $($ A是一个长度为 $h e i g h t [r k [i - 1]] - 1$ 的字符串 $)$ ，那么后缀 $i$ 就是 $A D$ 。设后缀 $s a [r k [i - 1] - 1]$ 为 $a A B$ ,那么 $l c p (i - 1, s a [r k [i - 1] - 1]) = a A$ 。那么由于后缀 $s a [r k [i - 1] - 1] + 1$ 是 $A B$ ,一定排在后缀 $i$ 前面，那么后缀 $s a [r k [i] - 1]$ 一定含有后缀 $A$ ,所以
$l c p (i, s a [r k [i] - 1])$ 至少是 $h e i g h t [r k [i - 1] - 1$ 。

直观地表现一下：
$i - 1 = a A D$
$i = A D$
$s a [r k [i - 1] - 1] = a A B$
$s a [r k [i - 1] - 1] + 1 = A B$
$s a [r k [i] - 1] = A [B / C]$
$l c p (i, s a [r k [i] - 1]) = A X (X 可能为空)$

4) $O (n) 求 h e i g h t 数组 - C o d e$

for(int i=1,k=0;i<=n;++i)
{
	if(k) --k;
	while(s[i+k]==s[sa[rk[i]-1]+k]) ++k;
	ht[rk[i]]=k;
}

$k\le n$ ,最多减 $n$ 次，所以最多加 $2 n$ ,总复杂度就是 $O (n)$ 。

Mint-hexagram

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
后缀数组-后缀排序

后缀数组-一个可以解决多种字符串中字串问题的优秀算法
复制链接

扫一扫

专栏目录

后缀数组-后缀排序

一、一些前置定义：

二、后缀数组的求法：

1)纯暴力做法：

2) O ( n l o g 2 n ) O(nlog^2n) O(nlog2n)的做法

3）优化做法：

三、 h e i g h t height height数组

1) L C P LCP LCP(最长公共前缀）

2） h e i g h t height height数组的定义

3） O ( n ) O(n) O(n)求 h e i g h t height height数组需要的一个引理

4) O ( n ) 求 h e i g h t 数 组 − C o d e O(n)求height数组-Code O(n)求height数组−Code