后缀数组详解

tanjunming2020

已于 2024-02-18 09:57:32 修改

阅读量2.3k

点赞数 7

分类专栏：算法文章标签：算法数据结构 c++

于 2022-08-10 21:09:29 首次发布

本文链接：https://blog.csdn.net/tanjunming2020/article/details/126274419

版权

算法专栏收录该内容

44 篇文章 4 订阅

订阅专栏

后缀数组是一种处理字符串的算法，一般用倍增实现。

基本定义

后缀是指从某个位置 $i$ 开始到整个串末尾结束的一个特殊子串。字符串 $r$ 的第 $i$ 个字符开始的后缀的表示为 $s u ff i x (i)$ ，也就是 $suffix(i)=r[i\dots len(r)-1]$

后缀数组 $s a$ 是一个一维数组，它保存 $1\dots n$ 的某个排列 $sa[1],sa[2],\dots,sa[n]$ ，并且保证 $suffix(sa[i])<suffix(sa[i+1]),1\leq i<n$ 。也就是将 $S$ 的 $n$ 个后缀从小到大排序后把排好序的后缀的开头位置一次放入 $s a$ 中。

名次数组 $r ank [i]$ 保存的是 $s u ff i x (i)$ 在所有后缀中从小到大排列的名次。

举个例子：
在这里插入图片描述
在求出名次数组后，可以仅用 $O (1)$ 的时间比较任意两个字符的大小

倍增算法

如何求出这两个数组呢？一般使用的是倍增算法。用倍增的方法对每个字符开始的长度为 $2^k$ 的子串进行排序，求出 $r ank$ 数组。k从0开始，每次加1，当 $2^k$ 大于 $n$ 以后，每个字符开始的长度为 $2^k$ 的子串就相当于每个后缀。并且因为没有两个相同的字符串，所以 $r ank$ 中没有相同的值。
在这里插入图片描述

code

int n,m,r[maxn],wa[maxn],wb[maxn],wv[maxn],vs[maxn],sa[maxn];
bool cmp(int *rr,int a,int b,int l){
    return rr[a]==rr[b]&&rr[a+l]==rr[b+l];
}
void dd(){
    int i,j,p,*x=wa,*y=wb,*t;
    memset(vs,0,sizeof(vs));
    for(i=0;i<n;i++) ++vs[x[i]=r[i]];
    for(i=1;i<m;i++) vs[i]+=vs[i-1];
    for(i=n-1;i>=0;i--) sa[--vs[x[i]]]=i;
    for(j=1,p=1;p<n;j*=2,m=p){
        for(i=n-j;i<n;i++) y[p++]=i;
        for(i=0;i<n;i++)
        if(sa[i]>=j) y[p++]=sa[i]-j;
        for(i=0;i<n;i++) wv[i]=x[y[i]];
        memset(vs,0,sizeof(vs));
        for(i=0;i<n;i++) ++vs[wv[i]];
        for(i=1;i<m;i++) vs[i]+=vs[i-1];
        for(i=n-1;i>=0;i--) sa[--vs[wv[i]]]=y[i];
        for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i<n;i++){
            x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
        }
    }
}

待排序的字符串转换为int类型存储在r数组中，从 $r [0]$ 到 $r [n - 1]$ ，长度为n，且范围在0和m之间。为了操作方便，规定除 $r [n - 1]$ 外所有 $r [i]$ 都大于0， $r [n - 1] = 0$ 。 $s a$ 数组从 $s a [0]$ 到 $s a [n - 1]$ 。

最长公共前缀

$h e i g h t [i]$ 为 $s u ff i x (s a [i - 1])$ 和 $s u ff i x (s a [i])$ 的最长公共前缀，也就是排名相邻的两个后缀的最长公共前缀。对于j和k，不妨设 $r ank [j] < r ank [k]$ ，则有以下性质：

$s u ff i x (j)$ 和 $s u ff i x (k)$ 的最长公共前缀为 $height[rank[j]+1],height[rank[j]+2],\dots height[rank[k]]$ 的最小值

比如字符串 $aabaaaab$ ，求后缀 $abaaaab$ 和后缀 $aaab$ 的最长公共前缀，如图所示：

在这里插入图片描述
但如何求height的值呢？

如果从1到n-1计算，最坏情况下要 $O(n^2)$ 。我们可以定义 $h [i] = h e i g h t [r ank [i]]$ ，也就是 $s u ff i x (i)$ 和在它前一名的后缀的最长公共前缀。

h数组满足 $h[i]\geq h[i-1]-1$

证明：

设 $s u ff i x (k)$ 是排在 $s u ff i x (i - 1)$ 前一名的后缀，则它们的最长公共前缀为 $h [i - 1]$ 。那么 $s u ff i x (k + 1)$ 将排在 $s u ff i x (i)$ 前面（这里要求 $h [i - 1] > 1$ ，如果 $h[i-1]\leq 1$ ，原式显然成立）并且 $s u ff i x (k + 1)$ 和 $s u ff i x (i)$ 的最长公共前缀是 $h [i - 1] - 1$ ，所以 $s u ff i x (i)$ 和它前一名的后缀的最长公共前缀至少为 $h [i - 1] - 1$ 。按照h从1到n的顺序计算，并利用h数组的性质，时间复杂度可降为 $O (n)$

实现的时候没有必要保存h数组，只需按照 $h[1],h[2],\dots h[n-1]$ 的顺序即可

code

void ch(){
    int i,j,k=0;
    for(i=0;i<n;i++) rk[sa[i]]=i;
    for(i=0;i<n;h[rk[i++]]=k)
    for(k?k--:0,j=sa[rank[i]-1];r[i+k]==r[j+k];k++);
}

代码中的h数组指 $h e i g h t$ 数组

最长公共子串

公共子串：如果字符串L同时出现在字符串A和字符串B中，则称字符串L是字符串A和字符串B的公共子串

字符串的任何一个子串都是其某个后缀的前缀，求两个字符串的最长公共子串就是求两个字符串的后缀的最长公共前缀。如果枚举两个字符串的后缀，则时间复杂度为 $O(n^2)$ 。我们可以将一个字符串并在另一个字符串后面，中间用一个没有出现过的字符隔开，再求新字符串的后缀数组。

以 $A = aaaba, B = abaa$ 为例，如图所示：
在这里插入图片描述
因为最长公共子串为A和B的后缀的最长公共前缀，所以最长公共子串的长度就是满足条件的 $h e i g h t$ 值中的最大值。可取的 $h e i g h t$ 要满足什么条件呢？如果两个后缀在原来的同一个字符串，则不能满足条件。所以只有当 $s u ff i x (s a [i - 1])$ 和 $s u ff i x (s a [i])$ 不是同一个字符串的两个后缀时， $h e i g h t$ 值才是满足条件的。记 $A$ 和 $B$ 的长度为 $∣ A ∣$ 和 $∣ B ∣$ ，则时间复杂度为 $O (∣ A ∣ + ∣ B ∣)$ 。

tanjunming2020

关注

7
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
后缀数组详解

后缀是指从某个位置iii开始到整个串末尾结束的一个特殊子串。字符串rrr的第iii个字符开始的后缀的表示为suffix(i)suffix(i)suffix(i)，也就是suffix(i)=r[i…len(r)−1]suffix(i)=r[i…len(r)−1]后缀数组sasasa是一个一维数组，它保存1…n1\dots n1…n的某个排列sa[1。......
复制链接

扫一扫

专栏目录