后缀数组基础

最新推荐文章于 2024-07-24 22:13:06 发布

OIer_FY

最新推荐文章于 2024-07-24 22:13:06 发布

阅读量72

点赞数

分类专栏：字符串算法文章标签：算法

本文链接：https://blog.csdn.net/jz_2021_fengyue/article/details/132335670

版权

字符串算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

后缀数组 $s a$ 和排名数组 $r k$

例题一：后缀排序。

设 $sa_i$ 为把字符串 $s$ 的所有后缀排序后，排名第 $i$ 的后缀。例题要求的就是 $s a$ .

设 $rk_i$ 为把字符串 $s$ 的所有后缀排序后，后缀 $i$ 的排名。

显然
$sa_{rk_i}=rk_{sa_i}=i.$

求 $s a$ 和 $r k$ （ $\operatorname O(n \log n)$ ）

如果直接排序是 $\operatorname O(n^2\log n)$ 的，不能接受。

注意到我们排序的元素有一些“包含”。使用倍增思想来排序。

设 $rk_{w,i}$ 为子串 $s_{i\sim i+2^w-1}$ 的排名。那么每次倍增合并后缀的排名，使用双关键字排序，最后得出的就是 $r k$ 数组。

如图所示（《后缀数组——处理字符串的有力工具》，有改动）

那么内层排序我们使用基数排序和计数排序，就可以实现 $\operatorname O(n \log n)$ 排序。

小优化：发现第二关键字无需计数排序，可以直接按值加入（详见代码）。

m = 256; // m represent the range of the value of rk
for (int i=1; i <= n; i++) b[rk[i] = s[i]]++;
for (int i=1; i <= m; i++) b[i] += b[i-1];
for (int i=n; i >= 1; i--) sa[b[rk[i]]--] = i;
for (int w=1; w <= n; w <<= 1)
{
    // The second key word doesn't need counting sort
    int c0 = 0;
    for (int i=n-w+1; i <= n; i++) c[++c0] = i; // [n-w+1,n] don't have the second key word, so they're the smallest
    for (int i=1; i <= n; i++) // i is the value of the second key word
        if (sa[i] > w) c[++c0] = sa[i]-w; // sa[i] is the position of i
    // Sort the first key word
    clear(b);
    for (int i=1; i <= n; i++) b[rk[i]]++;
    for (int i=1; i <= m; i++) b[i] += b[i-1];
    for (int i=n; i >= 1; i--) sa[b[rk[c[i]]]--] = c[i]; // Two-key-word counting sort
    memcpy(old,rk,sizeof old); // old rk
    // Compute new rk
    for (int i=1; i <= n; i++)
    {
        if (old[sa[i]] == old[sa[i-1]] && old[sa[i]+w] == old[sa[i-1]+w]) rk[sa[i]] = rk[sa[i-1]];
        else rk[sa[i]] = rk[sa[i-1]]+1;
    }
    m = c0;
}

简单应用

例题二：字符加密。

题目大意：求字符串 $s$ 最小的循环同构串。

把原字符串复制一遍，就变成了后缀排序问题。

例题三：【模板】AC自动机。

题目大意：给出文本串 $s$ 和多个模式串 $t_i$ ，求 $t$ 在 $s$ 中有没有出现。

~~因为我找不到别的题了，所以就只能用这一题。~~

若 $t_i$ 在 $s$ 中有出现，那么它一定是一个后缀的前缀。那么我们在 $s a$ 上二分，找到最小的 $\geqslant t_i$ 的后缀即可。

时间复杂度为 $\operatorname O(|t_i|\log n)$ ，比 AC 自动机多一个 $\log$ ，但是在线。

高度数组 $h e i g h t$ （以下有时简称为 $h$ ）

设 $height_i=\text{lcp}(sa_i,sa_{i-1})$ ，即排名第 $i$ 的后缀和排名第 $i - 1$ 的后缀的最长公共前缀。

求 $h e i g h t$ 数组

引理一
$h_{rk_i}\geqslant h_{rk_{i-1}}-1.$
证明：当 $h_{rk_{i-1}}\leqslant 1$ 时，引理成立。

当 $h_{rk_{i-1}}\geqslant 1$ 时，即 $\text{lcp}(i-1,sa_{rk_{i-1}-1})\geqslant 1$ .

设后缀 $i - 1$ 为 $\texttt{aAC}$ ，后缀 $sa_{rk_{i-1}-1}$ 为 $\texttt{aAB}$ ，其中 $\texttt{a}$ 为一个字符， $\texttt{A}$ 、 $\texttt{B}$ 、 $\texttt{C}$ 均为子串， $\texttt{B}$ 可为空。显然 $\texttt{B} < \texttt{C}$ .

则后缀 $i$ 为 $\texttt{AC}$ . 所以 $\texttt{AB} < \texttt{AC} =$ 后缀 $i$ .

又因为后缀 $sa_{rk_{i}-1}$ 是最大的小于后缀 $i$ 的后缀，所以 $\texttt{AB}\leqslant sa_{rk_i-1} <\texttt{AC}=$ 后缀 $i$ .

所以 $\text{lcp}(i,sa_{rk_i-1})\supseteq\texttt{A}$ . 所以 $h_{rk_i}\geqslant h_{rk_{i-1}}-1$ .

那么有了这个引理，就可以求出 $h e i g h t$ 数组了。

for (int i=1, k=1; i <= n; i++)
{
    if (k) k--;
    while (s[i+k] == s[sa[rk[i]-1]+k]) k++;
    height[rk[i]] = k;
}

$k$ 最多减 $n$ 次，所以最多加 $2 n$ 次，均摊时间复杂度是 $\operatorname O(n)$ .

求子串的最长公共前缀

引理二
$KaTeX parse error: Expected 'EOF', got '&' at position 104: …j). \end{cases}&̲i\leqslant k\le…$
证明：当 $i = k$ 或 $k = j$ 时，引理成立。

当 $\text{lcp}(sa_i,sa_j)=0$ 时，引理成立。

否则，设
$\text{lcp}(sa_i,sa_k)=\texttt{A},~\text{lcp}(sa_k,sa_j)=\texttt{B},~\text{lcp}(sa_i,sa_j)=\texttt{C}, \\ |\texttt A|=a,~|\texttt{B}|=b,|\texttt{C}|=c.$

异德 $c\geqslant \min(a,b)$ ， $\texttt{A}<\texttt{B}$ .

假设 $c > a$ ，如图所示，则 $\texttt{C}\subset \texttt{A}$ .

容易看出 $\texttt{A-C}\leqslant \texttt{D}\leqslant \texttt{A-C}$ ，即 $\texttt{A}=\texttt{C}$ ，与 $c > a$ 矛盾。

$c > b$ 的情况同理。那么引理得证！

所以得到定理一
$\begin{align} \text{lcp}(sa_i,sa_j) &= \min(\text{lcp}(sa_i,sa_{i+1}),\text{lcp}(sa_{i+1},sa_j)) \\ &= \min(\text{lcp}(sa_i,sa_{i+1}),\min(\text{lcp}(sa_{i+1},sa_{i+2}),\text{lcp}(sa_{i+2},sa_j)) \\ &\cdots \\ &= \min_{k=i+1}^j height_k. \end{align}$
那么就可以把求子串的 $\text{lcp}$ 转化为 $h e i g h t$ 数组的 RMQ 了。

简单应用

例题四：[GDOI 2015] 短信加密。

题目大意：给出一个字符串 $s$ ，对于 $s$ 的 $k$ （ $k\geqslant 2$ ）个不重叠且相同子串 $t$ ，它的代价为 $k ∣ t ∣$ . 求最大的 $k ∣ t ∣$ 和相应的字典序最小的 $t$ . $n\leqslant 10000$ .

重复出现子串就相当于两个后缀的 $\text{lcp}$ .

枚举 $∣ t ∣ = l$ . 把 $h e i g h t$ 分块，满足每块内的 $h e i g h t$ 值都 $\geqslant l$ ，有些后缀不属于任何一个块。

根据 $h e i g h t$ 的定义，块内的任意两个后缀的 $\text{lcp}$ 都 $\geqslant l$ ，块外两个都 $\leqslant l$ .

那么我们贪心地求 $t$ . 异德 $t$ 越靠前， $k$ 越大。所以将块内的 $s a$ 排序，必须选第一个，能选的尽量选。

OIer_FY

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
后缀数组基础

那么每次倍增合并后缀的排名，使用双关键字排序，最后得出的就是。：发现第二关键字无需计数排序，可以直接按值加入（详见代码）。那么内层排序我们使用基数排序和计数排序，就可以实现。中有出现，那么它一定是一个后缀的前缀。把原字符串复制一遍，就变成了后缀排序问题。排序，必须选第一个，能选的尽量选。重复出现子串就相当于两个后缀的。的定义，块内的任意两个后缀的。那么有了这个引理，就可以求出。的所有后缀排序后，排名第。，有些后缀不属于任何一个块。的所有后缀排序后，后缀。的后缀的最长公共前缀。和相应的字典序最小的。
复制链接

扫一扫