后缀数组——学习笔记

后缀

我们定义在字符串s中,从i一直到末尾的子串为suff[i],即以i为起点的后缀


后缀数组

用sa来表示,sa[i]表示;排名为i的后缀的开头在sa[i]处(即sa[i]——n这个后缀的排名为i)


后缀数组的思想

如果我们直接用暴力去求这个数组,很容易想到直接sort所有后缀( O(nlogn) O ( n l o g n ) ),而比较两个字符串的大小的复杂度为 O(n) O ( n ) ,所以总复杂度为 O(n2logn) O ( n 2 l o g n ) ,显然无法接受。
而后缀数组用到的是一种类似于倍增的思路,考虑我们如果知道了长度为n的子串的排名,可以通过相邻两段合并快速求得长度为2*n的子串的排名。(相当于将第一段作为第一关键字,第二段作为第二关键字排序)而这个排序如果使用快排需要的复杂度是 O(nlogn) O ( n l o g n ) ,倍增复杂度为 O(logn) O ( l o g n ) ,总复杂度为 O(nlog2n) O ( n l o g n 2 ) ,似乎还是有点高。于是我们想到了复杂度为 O() O ( 字 符 串 位 数 ∗ 长 度 ) 的基数排序,因为字符串长度始终为2(第一次为1),便能将复杂度降低至 O(nlogn) O ( n l o g n )


具体实现请看代码

(以洛谷P3809 【模板】后缀排序为例)

#include <bits/stdc++.h>
using namespace std;

const int maxn=1e6+100;
int n,m,num;
char s[maxn];
int x[maxn],y[maxn],sa[maxn],c[maxn];

void get_sa()
{
    for(int i=1;i<=n;i++) ++c[x[i]=s[i]];//1.将字符串s的ascall码赋给数组x 2.c为基数排序中的大桶,此时统计每个桶中的元素个数 
    for(int i=2;i<=m;i++) c[i]+=c[i-1];//类似于前缀和,求出每个桶的真实排名 
    for(int i=n;i>=1;i--) sa[c[x[i]]--]=i;//求出长度为1的子串的sa 
    for(int k=1;k<=n;k<<=1)
    {
        num=0;//y[i]表示第二关键字排名为i的数,第一关键字的开头在哪里
        for(int i=n-k+1;i<=n;i++) y[++num]=i;//以n-k+1到n开头的子串没有第二关键字,所以排名肯定是最前的 
        for(int i=1;i<=n;i++) if(sa[i]>k) y[++num]=sa[i]-k;//如果一个子串的sa值大于k,说明他能作为第二关键字,统计y值 
        for(int i=1;i<=m;i++) c[i]=0;//初始化c 
        for(int i=1;i<=n;i++) ++c[x[i]];//x在上一轮循环已经求出,直接统计即可 
        for(int i=2;i<=m;i++) c[i]+=c[i-1];// 类似于前缀和,求出每个桶的真实排名
        for(int i=n;i>=1;i--) sa[c[x[y[i]]]--]=y[i],y[i]=0;//这句话是最难理解的,需要自己慢慢品味
                                                           //y[i]___第二关键字排名为i的数,第一关键字的位置 
                                                           //x[y[i]]___第二关键字排名为i的数,第一关键字是什么
                                                           //c[x[y[i]]]___第二关键字排名为i的数,第一关键字所在的大桶
                                                           //c[x[y[i]]]--___在同一个大桶内,第二关键字排名越靠后,总排名就越靠后(注意i是从n到1)
                                                           //sa[c[x[y[i]]]--]=y[i]___将排名分给这个位置
                                                           //y[i]=0,清空y,为后面swap(x,y)做准备,相当于将x清空了 
        swap(x,y);//后面需要用到旧的x求新的x,所以需要用y数组当一下跳板(前面y已经清空,此时x是空的) 
        x[sa[1]]=1,num=1;
        for(int i=2;i<=n;i++)
            x[sa[i]]=(y[sa[i]]==y[sa[i-1]]&&y[sa[i]+k]==y[sa[i-1]+k])?num:++num;//求下一轮要用到的x数组 
        if(num==n) break;
        m=num;  
    }
}

int main()
{
    scanf("%s",s+1);
    n=strlen(s+1);m=122;
    get_sa();
    for(int i=1;i<=n;i++) printf("%d ",sa[i]);
    printf("\n");
    return 0;   
}

那么我们现在就会求后缀数组sa了,但是似乎我们除了模板题之外,依然无法做任何题目。没错,一般题目都肯定不会让你只求个后缀的排名就完了,所以我们就需要经常和后缀数组一起使用的好伙伴——LCP。


LCP

定义LCP(i,j)表示suff[sa[i]]与suff[sa[j]]的最长公共前缀


LCP的几条性质

1.LCP(i,j)=LCP(j,i)
2.LCP(i,i)=n-sa[i]+1
3.LCP(i,k)=min(LCP(i,j),LCP(j,k)) 1 <= i <= j <= k <= n
4.LCP(i,k)=min(LCP(j-1,j)) 1 <= i < j <= k <= n
(3、4我还都不会证,先记下来吧,留个坑)


求LCP

定义height[i]为LCP(i,i-1),h[i]为height[rk[i]](height[i]=h[sa[i]])
(rk[i]表示suff[i]的排名,rk[sa[i]]=i,sa[rk[i]]=i)
**最重要的一条定理:**h[i] >= h[i-1]-1 (依旧不会证)
有了这条定理,便能大大减少我们需要比较的次数,然后依次求height[rk[1]] <script type="math/tex" id="MathJax-Element-152">-</script>height[rk[n]]就可以了


具体实现请看代码
void get_height()
{
    for(int i=1;i<=n;i++) rk[sa[i]]=i;//初始化rk数组
    for(int i=1;i<=n;i++)
    {
        if(rk[i]==1) continue;//height[rk[1]]=0
        if(k) k--;//h[i]>=h[i-1]-1
        int j=sa[rk[i]-1];//获取前一排名后缀的位置
        while(i+k<=n&&j+k<=n&&s[i+k]==s[j+k]) k++;//往后比较
        height[rk[i]]=k;//求得height数组
    }
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值