后缀数组

最新推荐文章于 2023-04-10 11:25:04 发布

ZigZagK

最新推荐文章于 2023-04-10 11:25:04 发布

阅读量650

点赞数 1

分类专栏：后缀数组算法&数据结构总结By_ZZK 文章标签：字符串后缀数组

本文链接：https://blog.csdn.net/zzkksunboy/article/details/62049929

版权

算法&数据结构总结By_ZZK 同时被 2 个专栏收录

37 篇文章 5 订阅

订阅专栏

后缀数组

3 篇文章 0 订阅

订阅专栏

由来

后缀树查找速度极快，但是构造复杂，而后缀数组是一个比较不错的替代品。

思想

一提到查找我们就会想到二分查找，因为二分查找很快！那么如果我们能够把zzkbest的所有后缀排序，就可以用二分查找了！这样也能够实现快速的查找单词。我们会立刻想到各种排序算法，那么我们先拿zzkbest来举例，把zzkbest的后缀排序之后我们可以得到这么一个序列：
best(4)
est(5)
kbest(3)
st(6)
t(7)
zkbest(2)
zzkbest(1)
后面的数组表示他是哪个位置为开头的后缀，把标号列出，就得到了后缀数组（运用指针就可以快速得到后缀了）：
4 5 3 6 7 2 1
不过估算一下时间复杂度，是O(n*log2(n))吗？不是，因为字符串是有长度的！所以复杂度是O(n^2*log2(n))，效率不是很理想。我们需要另寻方法。

实现

这里写图片描述
首先先比较第一位，可以得到名次，这时候会发现名次有重复的（两个6），那么还没有排好序（不然名次不会有重复），那么我们就比较前两位。这时候我们已经确定了前一位的排名，就可以直接拿来用了：建造二元组。二元组就可以表示一个位置前两位的排名了。那么根据二元组再来排个名，我们得到了无重复的名次（注意，是名次，不是后缀数组，但有了名次不难处理出后缀数组）。

这时候我们还有必要处理前四个的排名吗？没有必要了，因为前两个就可以确定排名，前四个的得到的排名和前两个得到的排名一致（从二元组的角度也可以分析）。当然如果依然有重复的排名，就处理四个，八个，十六个（还是利用上一次的结果建立二元组，如果不理解为什么是二元组，请再思考一下）……

拓展

用这种倍增的方法就可以把构造后缀数组的时间缩短到O(X*log2(n))了！其中X是每次的复杂度，如果用快排，X=n*log2(n)，但是我们可以用基数排序，把X缩减为n。最后我们就可以直接用后缀数组来二分查找了。

模板

#include<cstdio>
#include<cstring>
using namespace std;
const int maxn=1005,maxl=1005,maxw=15;

int n,K,len,SA[maxl],rk[maxl],t[maxl],ha[maxl]; //rk表示rank即名次（可以有重复）
char now[maxl];

void make_SA(char* s) //构造后缀数组SA，MAX表示名次最大值
{
    int MAX=0;len=strlen(s+1);
    memset(ha,0,sizeof(ha)); //基数排序数组清0
    for (int i=1;i<=len;i++) {ha[rk[i]=s[i]]++;if (rk[i]>MAX) MAX=rk[i];} //刚开始的名次并不用去算，直接用ASCII码
    for (int i=1;i<=MAX;i++) ha[i]+=ha[i-1]; //叠加，得到名次
    for (int i=len;i>=1;i--) SA[ha[rk[i]]--]=i; //倒着枚举可以保证当重复的时候靠前的名次小
    //因为前面叠加过了，所以已经分成了一个一个片区
    for (int k=1;k<=len;k<<=1)
    {
        int p=0;
        for (int i=len-k+1;i<=len;i++) t[++p]=i; //t是第二关键字，t[i]表示第二关键字第i小的是谁
        //后面的几个第二关键字为0，所以是最小的
        for (int i=1;i<=len;i++) if (SA[i]>k) t[++p]=SA[i]-k; //如果SA[i]>k说明SA[i]可以被当成SA[i]-k的第二关键字
        //由于SA有序，所以这么处理后t也有序
        memset(ha,0,sizeof(ha)); //基数排序构造新的SA数组 
        for (int i=1;i<=len;i++) ha[rk[t[i]]]++; //这里也可以写ha[rk[i]]，因为t[i]是1~len的全排列
        for (int i=1;i<=MAX;i++) ha[i]+=ha[i-1]; //叠加
        for (int i=len;i>=1;i--) SA[ha[rk[t[i]]]--]=t[i]; //用t[i]控制第二关键字小的先编号
        //如果理解了上面的基数排序，这里就不难理解了
        memcpy(t,rk,sizeof(t)); //把之前的rank拷贝一份，因为t没用了，所以直接给t
        p=1;rk[SA[1]]=1; //排名第一的绝对还是排名第一（或并列第一）
        for (int i=2;i<=len;i++) //构造新的rank
            if (t[SA[i-1]]==t[SA[i]]&&t[SA[i-1]+k]==t[SA[i]+k]) rk[SA[i]]=p; else rk[SA[i]]=++p;
        //如果发现二元组相同，那么排名相同，否则排名+1
        if (p==len) break; //排名达到了n，说明没有重复的排名出现，后缀数组SA构造完成
        MAX=p; //下次的MAX就是p了
    }
}
int findL(char *s) //二分查找最后一个小于s的后缀
{
    int n=strlen(s+1),L=1,R=len,mid;
    while (L<=R)
    {
        mid=L+(R-L>>1);int d=strncmp(now+SA[mid],s+1,n);
        if (d<0) L=mid+1; else R=mid-1;
    }
    return R+1;
}
int findR(char *s) //二分查找最前一个大于s的后缀
{
    int n=strlen(s+1),L=1,R=len,mid;
    L=1;R=len;
    while (L<=R)
    {
        mid=L+(R-L>>1);int d=strncmp(now+SA[mid],s+1,n);
        if (d>0) R=mid-1; else L=mid+1;
    }
    return L-1;
}
//findR(w)-findL(w)+1就是w的匹配个数
bool Eoln(char ch) {return ch==10||ch==13||ch==EOF;}
int reads(char* s)
{
    int len=0;
    char ch=getchar();if (ch==EOF) return 2;
    s[++len]=ch;while (!Eoln(s[len])) s[++len]=getchar();s[len--]='\0';
    return 0;
}
int main()
{
    freopen("Suffix.in","r",stdin);
    freopen("Suffix.out","w",stdout);
    reads(now);make_SA(now);
    return 0;
}