后缀数组——学习笔记

最新推荐文章于 2024-07-24 11:25:06 发布

CleverLarry

最新推荐文章于 2024-07-24 11:25:06 发布

阅读量133

点赞数

分类专栏：学习笔记文章标签：后缀数组

本文链接：https://blog.csdn.net/qq_39662197/article/details/79996022

版权

学习笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

后缀

我们定义在字符串s中，从i一直到末尾的子串为suff[i]，即以i为起点的后缀

后缀数组

用sa来表示，sa[i]表示；排名为i的后缀的开头在sa[i]处（即sa[i]——n这个后缀的排名为i)

后缀数组的思想

如果我们直接用暴力去求这个数组，很容易想到直接sort所有后缀（ $O(nlogn)$ ），而比较两个字符串的大小的复杂度为 $O(n)$ ，所以总复杂度为 $O(n^2logn)$ ，显然无法接受。
而后缀数组用到的是一种类似于倍增的思路，考虑我们如果知道了长度为n的子串的排名，可以通过相邻两段合并快速求得长度为2*n的子串的排名。（相当于将第一段作为第一关键字，第二段作为第二关键字排序）而这个排序如果使用快排需要的复杂度是 $O(nlogn)$ ，倍增复杂度为 $O(logn)$ ，总复杂度为 $O(nlog^2_n)$ ，似乎还是有点高。于是我们想到了复杂度为 $O(字符串位数*长度)$ 的基数排序，因为字符串长度始终为2（第一次为1），便能将复杂度降低至 $O(nlogn)$

具体实现请看代码

（以洛谷P3809 【模板】后缀排序为例）

#include <bits/stdc++.h>
using namespace std;

const int maxn=1e6+100;
int n,m,num;
char s[maxn];
int x[maxn],y[maxn],sa[maxn],c[maxn];

void get_sa()
{
    for(int i=1;i<=n;i++) ++c[x[i]=s[i]];//1.将字符串s的ascall码赋给数组x 2.c为基数排序中的大桶，此时统计每个桶中的元素个数 
    for(int i=2;i<=m;i++) c[i]+=c[i-1];//类似于前缀和，求出每个桶的真实排名 
    for(int i=n;i>=1;i--) sa[c[x[i]]--]=i;//求出长度为1的子串的sa 
    for(int k=1;k<=n;k<<=1)
    {
        num=0;//y[i]表示第二关键字排名为i的数，第一关键字的开头在哪里
        for(int i=n-k+1;i<=n;i++) y[++num]=i;//以n-k+1到n开头的子串没有第二关键字，所以排名肯定是最前的 
        for(int i=1;i<=n;i++) if(sa[i]>k) y[++num]=sa[i]-k;//如果一个子串的sa值大于k，说明他能作为第二关键字，统计y值 
        for(int i=1;i<=m;i++) c[i]=0;//初始化c 
        for(int i=1;i<=n;i++) ++c[x[i]];//x在上一轮循环已经求出，直接统计即可 
        for(int i=2;i<=m;i++) c[i]+=c[i-1];// 类似于前缀和，求出每个桶的真实排名
        for(int i=n;i>=1;i--) sa[c[x[y[i]]]--]=y[i],y[i]=0;//这句话是最难理解的，需要自己慢慢品味
                                                           //y[i]___第二关键字排名为i的数，第一关键字的位置 
                                                           //x[y[i]]___第二关键字排名为i的数，第一关键字是什么
                                                           //c[x[y[i]]]___第二关键字排名为i的数，第一关键字所在的大桶
                                                           //c[x[y[i]]]--___在同一个大桶内，第二关键字排名越靠后，总排名就越靠后(注意i是从n到1)
                                                           //sa[c[x[y[i]]]--]=y[i]___将排名分给这个位置
                                                           //y[i]=0，清空y，为后面swap(x,y)做准备，相当于将x清空了 
        swap(x,y);//后面需要用到旧的x求新的x，所以需要用y数组当一下跳板（前面y已经清空，此时x是空的） 
        x[sa[1]]=1,num=1;
        for(int i=2;i<=n;i++)
            x[sa[i]]=(y[sa[i]]==y[sa[i-1]]&&y[sa[i]+k]==y[sa[i-1]+k])?num:++num;//求下一轮要用到的x数组 
        if(num==n) break;
        m=num;  
    }
}

int main()
{
    scanf("%s",s+1);
    n=strlen(s+1);m=122;
    get_sa();
    for(int i=1;i<=n;i++) printf("%d ",sa[i]);
    printf("\n");
    return 0;   
}

那么我们现在就会求后缀数组sa了，但是似乎我们除了模板题之外，依然无法做任何题目。没错，一般题目都肯定不会让你只求个后缀的排名就完了，所以我们就需要经常和后缀数组一起使用的好伙伴——LCP。

LCP

定义LCP(i,j)表示suff[sa[i]]与suff[sa[j]]的最长公共前缀

LCP的几条性质

1.LCP(i,j)=LCP(j,i)
2.LCP(i,i)=n-sa[i]+1
3.LCP(i,k)=min(LCP(i,j),LCP(j,k)) 1 <= i <= j <= k <= n
4.LCP(i,k)=min(LCP(j-1,j)) 1 <= i < j <= k <= n
（3、4我还都不会证，先记下来吧，留个坑）

求LCP

定义height[i]为LCP(i,i-1),h[i]为height[rk[i]]（height[i]=h[sa[i]]）
（rk[i]表示suff[i]的排名，rk[sa[i]]=i，sa[rk[i]]=i）
**最重要的一条定理：**h[i] >= h[i-1]-1 （依旧不会证）
有了这条定理，便能大大减少我们需要比较的次数，然后依次求height[rk[1]] − <script type="math/tex" id="MathJax-Element-152">-</script>height[rk[n]]就可以了

具体实现请看代码

void get_height()
{
    for(int i=1;i<=n;i++) rk[sa[i]]=i;//初始化rk数组
    for(int i=1;i<=n;i++)
    {
        if(rk[i]==1) continue;//height[rk[1]]=0
        if(k) k--;//h[i]>=h[i-1]-1
        int j=sa[rk[i]-1];//获取前一排名后缀的位置
        while(i+k<=n&&j+k<=n&&s[i+k]==s[j+k]) k++;//往后比较
        height[rk[i]]=k;//求得height数组
    }
}

CleverLarry

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
后缀数组——学习笔记

后缀我们定义在字符串s中，从i一直到末尾的子串为suff[i]，即以i为起点的后缀后缀数组用sa来表示，sa[i]表示；排名为i的后缀的开头在sa[i]处（即sa[i]——n这个后缀的排名为i)后缀数组的思想如果我们直接用暴力去求这个数组，很容易想到直接sort所有后缀（O(nlogn)O(nlogn)O(nlogn)），而比较两个字符串的大小的复杂度为O(n)O(n)...
复制链接

扫一扫

专栏目录