【后缀数组sa学习小记】

什么是后缀数组(sa)

后缀数组就是将s的后缀按字典序排序,sa[i]表示字典序第i小的后缀从第几位开始。配合sa还有rank表示第i个后缀排第几,height表示第i小的后缀与第i-1小的后缀最长公共前缀是多少。

怎么求后缀数组(sa)

有两种方法可以求sa,但是最经济实惠(最简单)的是倍增法,这里我们只讨论倍增法。首先我们可以考虑倍增法,求出第i位开始二的次幂个字符的rank,显然可以利用上一次的rank算出这一次的rank,当成一对二元组排序即可。

具体实现

一开始的rank就是字符的ascll码。我们先对第二关键字排序,其实这就是上一次排序的结果,所以我们可以直接使用。为了方便我们设order为按第二关键字排序对应的起始位置,即第一关键字的起始位,先考第二关键字已经越界的情况,把起始位加入ord,再按第二关键字的大小,把不越界的对应起始位加入ord,这样就排好第二关键字。
接下来就是对第一关键字排序,我们先开一个桶记录一下每个数出现了几次,在算出每个数的rank,然后我们再倒着ord计算每个起始位的rank,询问对应数的rank,然后把对应数的rank减一,这样就保证了数值相同的两个数相对顺序没有改变,至此我们求出了sa。

code

void sort(){
    fo(i,0,m)cnt[i]=0;
    fo(i,1,n)cnt[rank[ord[i]]]++;
    fo(i,1,m)cnt[i]+=cnt[i-1];
    fd(i,n,1)sa[cnt[rank[ord[i]]]--]=ord[i];
}
bool diff(int i,int j,int w){
    return (ord[i]!=ord[j])||(ord[i+w]!=ord[j+w]);
}
void slove(){
    fo(i,1,n)rank[i]=s[i],ord[i]=i;m='z';
    sort();
    for(int w=1,p=1;p<n;w=w<<1){
        m=p;p=0;fo(i,n-w+1,n)ord[++p]=i;
        fo(i,1,n)if(sa[i]>w)ord[++p]=sa[i]-w;
        sort();swap(rank,ord);rank[sa[1]]=p=1;
        fo(i,2,n)rank[sa[i]]=(p+=diff(sa[i],sa[i-1],w));
    }
}

sa的补充

是不是觉得sa好像没有什么卵用,因为sa记录的信息实在太少了,所以我们配备了height。我们设h[i]=height[rank[i]],这里有一个结论h[i]>=h[i-1]-1。如果后缀k在后缀i-1前一位且h[i-1]>1,后缀k+1在后缀i前面且他们的最长公共前缀是h[i-1]-1,所以h[i]>=h[i-1]-1。对于h[i-1]<=1,h[i]>=h[i-1]-1显然成立。

具体实现

按原串的顺序枚举i,保存上一次的h值,暴力计算这次的h值,按rank值放到height。

code

void count_height(){
    for(int i=1,p=0,j;i<=n;h[rank[i]]=p,i++)
        for(p=p-(p!=0),j=sa[rank[i]-1];s[i+p]==s[j+p];p++);
}

height的补充

留坑待填

code

#include<cmath>
#include<cstdio>
#include<cstring>
#include<algorithm>
#define LL long long
#define min(a,b) ((a<b)?a:b)
#define max(a,b) ((a>b)?a:b)
#define fo(i,j,k) for(int i=j;i<=k;i++)
#define fd(i,j,k) for(int i=j;i>=k;i--)
using namespace std;
int const maxn=1e5,mo=12580;
int n,m,cnt[maxn+10],a[2][maxn+10],sa[maxn+10],h[maxn+10];
int *rank=a[0],*ord=a[1];
char s[maxn+10];
void sort(){
    fo(i,0,m)cnt[i]=0;
    fo(i,1,n)cnt[rank[ord[i]]]++;
    fo(i,1,m)cnt[i]+=cnt[i-1];
    fd(i,n,1)sa[cnt[rank[ord[i]]]--]=ord[i];
}
bool diff(int i,int j,int w){
    return (ord[i]!=ord[j])||(ord[i+w]!=ord[j+w]);
}
int main(){
    freopen("d.in","r",stdin);
    freopen("d.out","w",stdout);
    scanf("%s",s+1);n=strlen(s+1);
    fo(i,1,n)rank[i]=s[i],ord[i]=i;m='z';
    sort();
    for(int w=1,p=1;p<n;w=w<<1){
        m=p;p=0;fo(i,n-w+1,n)ord[++p]=i;
        fo(i,1,n)if(sa[i]>w)ord[++p]=sa[i]-w;
        sort();swap(rank,ord);rank[sa[1]]=p=1;
        fo(i,2,n)rank[sa[i]]=(p+=diff(sa[i],sa[i-1],w));
    }
    for(int i=1,p=0,j;i<=n;h[rank[i]]=p,i++)
        for(p=p-(p!=0),j=sa[rank[i]-1];s[i+p]==s[j+p];p++);
    return 0;
}
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值