后缀数组_后缀数组 csdn-CSDN博客

本文链接：https://blog.csdn.net/Loceaner/article/details/105831615

参考:https://www.bilibili.com/video/av92589768?from=search&seid=11036159274843024348

符号

子串

从原串中选取连续的一段即为子串，空串也是子串

后缀

我们用 $s u f (k)$ 表示 $s (k \dots n)$ 构成的子串

任何子串都是某个后缀的前缀

最长公共前缀lcp

$l c p (s u f (i), s u f (j))$ 表示两个串 $s u f (i)$ 和 $s u f (j)$ 最长的一样的前缀

问题

将所有后缀 $s u f (1), s u f (2), \dots ， s u f (N)$ 按照字典序从小到大排序

方法1

首先看到题目想到的就是直接用暴力，建一个 $c m p$ 数组，用 $s t r i n g$ 可以比较大小的性质去暴力 $s o r t$

因为 $s o r t$ 是 $n\log n$ 的，每次 $c m p$ 函数都是 $O (n)$ 的，所以总的时间复杂度就是 $n^2\log n$

方法2

想一想更好的做法，我们可以用二分+hash

复杂度： $n \log^2n$

$c m p$ 函数中二分 $s u f (i)$ 和 $s u f (j)$ 的 $l c p$

$return\ s[i + |lcp|] < s[j +|lcp|]$

方法3

$S A$ 算法

$SA[l] = $ 排名第 $l$ 的后缀的开始位置

$Rank[i] = $ 后缀 $s u f (i)$ 的排名

Rank[SA[l]] = l;
SA[Rank[i]] = i;

求出其中一个就能 $O (n)$ 求出另一个

有什么求其中一个数组的好的方法呢？

答案是倍增

方法三实现优化

倍增

记 $s u b [i] [k] = s$ 从 $i$ 开始长度 $s^k$ 的子串

$s u b [i] [k] = s [i \dots i + (1 < < k) - 1]$ ，超过 $n$ 的部分都视为**’\0’**（字典序最小的字符）

$r a n k [i] [k] = s u b [i] [k]$ 在长度 $2^k$ 的所有子串中的排名

$sa[l][k] = $在长度$ =2^k $的所有子串中排名第$ l$的子串的开始位置

过程

求出 $s u b [1] [0], s u b [2] [0], \dots ， s u b [n] [0]$ 的字典排序
求出 $s u b [1] [1], s u b [2] [1], \dots ， s u b [n] [1]$ 的字典排序
……
求出 $s u b [1] [k], s u b [2] [k], \dots ， s u b [n] [k]$ 的字典排序

当子串长度 $2^k>=n$ 时，子串排序就是后缀排序

利用 $r a n k [1 \dots n] [k]$ ,如何求出 $r a n k [1 \dots n] [k + 1]$

对于两个子串 $s u b [i] [k + 1]$ 和 $s u b [j] [k + 1]$

先比较 $r a n k [i] [k] < r a n k [j] [k]$

若相等，再比较 $rank[i+2^k][k]<rank[j+2^k][k]$

其实就相当于对二元组 $rank[i][k], rank[i+2^k][k])$ 排序

$p a i r$ 排序时，先按 $f i r s t$ 比较，若相等再按 $s e c o n d$ 比较

但如果建 $p a i r$ 数组直接 $s o r t$ 的话，复杂度还是 $n\log^2n$ ，还不如写二分+hash

于是这个时候就出现了一个神奇的东西：基数排序

为什么可以优化呢？我们注意到 $r a n k$ 这个数组，他的值域是多少？

没错，值域就是不超过 $n$ 的正整数，所以我们就可以用基数排序，换句话说就是桶排序

关于基数排序的相关，看可以去看一下洛谷日报第十五期，这里给出链接：基数排序

写 $S A$ 时的基数排序用 $c n t$ 实现

如何将 $a [i]$ 数组基数排序，然后将结果放在 $S A$ 数组中呢？

下面的代码就实现了输入一个 $a$ 数组，得到 $s a$ 数组

for (int i = 1; i <= n; i++) ++cnt[a[i]];
for (int i = 1; i <= n; i++) cnt[i] += cnt[i - 1];
for (int i = n; i >= 1; i--) sa[cnt[a[i]]--] = i;

比如一个 $a$ 数组为

$a = [2, 1, 2, 4, 2]$

若用 $s a [l]$ 表示排名第 $l$ 的数在 $a$ 中的下标

则 $s a = [2, 1, 3, 5, 4]$

就可以根据

Rank[SA[l]] = l;
SA[Rank[i]] = i;

得出 $r a n k$ 数组

$r a n k = [2, 1, 2, 3, 2]$

到这里我们就能回到一开始的问题，实现用 $r a n k [1 \dots n] [k]$ ,如何求出 $r a n k [1 \dots n] [k + 1]$ ，步骤如下:

$\large for(k = 1 \sim \log n)$

按 $rank[i+2^k][k]$ （第二关键字）基数排序
按 $r a n k [i] [k]$ （第一关键字）基数排序，得到 $s a [i] [k + 1]$ 数组
由 $s a [i] [k + 1]$ 求出 $r a n k [i] [k + 1]$

如果你细心的话可能会发现， $k$ 是从 $1$ 开始的而不是从 $0$ 开始的，那么 $k$ 是 $0$ 时候怎么来的呢？

因为 $2^0$ 就是 $1$ ，所以我们可以直接把 $r a n k$ 数组（也就是排名）先设成当前字符的 $\text{ASCII}$ 码，这样就可以啦~

sa->rank

如果 $r k [i]$ 中有并列

for (int p = 0, i = 1; i <= n; i++) {
	if(oldrk[sa[i]] == oldrk[sa[i - 1]] && oldrk[sa[i] + k] == oldrk[sa[i - 1] + k])
		rk[sa[i]] = p;
	else rk[sa[i]] = ++p;
}

代码

#include <cstdio>
#include <cstring>
#include <iostream>
#include <algorithm>
using namespace std;

const int A = 1e6 + 11;

inline int read() {
	char c = getchar();
	int x = 0, f = 1;
	for ( ; !isdigit(c); c = getchar()) if (c == '-') f = -1;
	for ( ; isdigit(c); c = getchar()) x = x * 10 + (c ^ 48);
	return x * f;
}

char s[A];
int n, m, sa[A], rank[A], tp[A], tax[A];

void cntsort() {
	for (int i = 0; i <= m; i++) tax[i] = 0;
	for (int i = 1; i <= n; i++) tax[rank[i]]++;
	for (int i = 1; i <= m; i++) tax[i] += tax[i - 1];
	for (int i = n; i >= 1; i--) sa[tax[rank[tp[i]]]--] = tp[i];
}

void Sort() {
	m = 75;
	for (int i = 1; i <= n; i++) rank[i] = s[i] - '0' + 1, tp[i] = i;
	cntsort();
	for (int w = 1, p = 0; p < n; m = p, w <<= 1) {
		p = 0;
		for (int i = 1; i <= w; i++) tp[++p] = n - w + i;
		for (int i = 1; i <= n; i++) if(sa[i] > w) tp[++p] = sa[i] - w;
		cntsort();
		swap(tp, rank);
		rank[sa[1]] = p = 1;
		for (int i = 2; i <= n; i++) {
			rank[sa[i]] = (tp[sa[i - 1]] == tp[sa[i]] && tp[sa[i - 1] + w] == tp[sa[i] + w]) ? p : ++p;
		}
	}
}

int main() {
	scanf("%s", s + 1);
	n = strlen(s + 1);
	Sort();
	for(int i = 1; i <= n; i++) cout << sa[i] << ' ';
	return 0;
}

Height数组

我们通过求 $S A$ 数组可以把所有后缀排序，那么排序之后有啥用呢？？

其实是为了快速的求出任意两个后缀的 $l c p$ 长度

我们记$Height[l] = $排名第$ l-1 $的后缀和排名第$ l $的后缀的$ lcp$长度

$H e i g h t [l] = l c p (s u f (S A [l - 1], s u f (S A [l])))$

$H e i g h t [1]$ 可以视作 $0$ 。

假设 $l =$ 后缀 $s u f (i)$ 的排名，$r = $后缀$ suf(j) $的排名（在此$ l $不一定小于$ r$，只是举例）

那么有结论：

$l c p (s u f (i), d u f (j)) = m i n (H e i g h t [l + 1] \dots H e i g h t [r])$
即两个后缀的 $l c p =$ 它们排名区间中 $H e i g h t$ 的最小值

可以用数据结构维护 $r m p$

为什么可以这么理解呢？

假设有三个字符串 $s_1,s_2,s_3$ ，且 $s_1<s_2<s_3$ （按 $r a n k$ 排名得出）

那么 $lcp(s_1,s_3)$ 就等于 $min(lcp(s_1,s_2), lcp(s_2,s_3))$

(详细证明需要画图……我真的懒)

$lcp(s_1,s_3) >= min(lcp(s_1,s_2), lcp(s_2,s_3))=1$

又有 $s_1[l+1]!= s_3[l+1]$

求法

那么如何快速求出 $H e i g h t$ 数组呢？

纯暴力 $O(n^2)$

for i = 1 - N
	l = rank[i]
	j = sa[l - 1]
	k = 0
	while (s[i + k] ==s [j + k]): ++k
	Height[l] = k

令 $l = r a n k [i], r = r a n k [i - 1]$
$H e i g h t [l] = l c p (s u f (S A [l - 1]), s u f (i))$
$H e i g h t [r] = 1 c p (s u f (S A [r - 1]) ， s u f (i - 1))$

有重要结论:
$H e i g h t [l] > = H e i g h t [r] - 1$

若 $H e i g h t [r] > 1$ ,有 $s u f (S A [r - 1]) < s u f (S A [i - 1])$
去掉首个字符 $l c p (s u f (S A [r - 1] + 1) ， s u f (S A [i])) = H e i g h t [r] - 1$
$s u f (S A [r - 1] + 1) < s u f (S A [i])$
由于$Height[1] $是$ suf(i) $与排名紧挨着自己的后缀的$ lcp$,有
$s u f (S A [r - 1] + 1) < = s u f (S A [1 - 1]) < s u f (S A [i])$

相近的 $H e i g h t$ 会比较相似，比较远的会差别很大

不恰当的例子：

优化 $O (n)$

利用 $H e i g h t [r a n k [i]] > = H e i g h t [r a n k [i - 1]] - 1$
优化暴力即可，复杂度 $0 (N)$

for i = 1 - N
	j = sa[l - 1]
	k = max(0, Height[rank[i - 1]] - 1)
	while (s[i + k] == S[j+k]): ++k
	Height[rank[i]] = k

之后再用 $s t$ 表之类的维护 $H e i g h t$ 的 $r m q$ 信息即可

后缀数组

符号

子串

后缀

任何子串都是某个后缀的前缀

最长公共前缀lcp

问题

方法1

方法2

方法3

方法三实现优化

倍增

过程

利用 r a n k [ 1 … n ] [ k ] rank[1…n][k] rank[1…n][k],如何求出 r a n k [ 1 … n ] [ k + 1 ] rank[1…n][k+1] rank[1…n][k+1]

sa->rank

代码

Height数组

求法

纯暴力 O ( n 2 ) O(n^2) O(n2)

优化 O ( n ) O(n) O(n)

“相关推荐”对你有帮助么？

利用 $r a n k [1 \dots n] [k]$ ,如何求出 $r a n k [1 \dots n] [k + 1]$

纯暴力 $O(n^2)$

优化 $O (n)$