后缀数组

由来

后缀树查找速度极快,但是构造复杂,而后缀数组是一个比较不错的替代品。

思想

一提到查找我们就会想到二分查找,因为二分查找很快!那么如果我们能够把zzkbest的所有后缀排序,就可以用二分查找了!这样也能够实现快速的查找单词。我们会立刻想到各种排序算法,那么我们先拿zzkbest来举例,把zzkbest的后缀排序之后我们可以得到这么一个序列:
best(4)
est(5)
kbest(3)
st(6)
t(7)
zkbest(2)
zzkbest(1)
后面的数组表示他是哪个位置为开头的后缀,把标号列出,就得到了后缀数组(运用指针就可以快速得到后缀了):
4 5 3 6 7 2 1
不过估算一下时间复杂度,是O(n*log2(n))吗?不是,因为字符串是有长度的!所以复杂度是O(n^2*log2(n)),效率不是很理想。我们需要另寻方法。

实现

这里写图片描述
首先先比较第一位,可以得到名次,这时候会发现名次有重复的(两个6),那么还没有排好序(不然名次不会有重复),那么我们就比较前两位。这时候我们已经确定了前一位的排名,就可以直接拿来用了:建造二元组。二元组就可以表示一个位置前两位的排名了。那么根据二元组再来排个名,我们得到了无重复的名次(注意,是名次,不是后缀数组,但有了名次不难处理出后缀数组)。

这时候我们还有必要处理前四个的排名吗?没有必要了,因为前两个就可以确定排名,前四个的得到的排名和前两个得到的排名一致(从二元组的角度也可以分析)。当然如果依然有重复的排名,就处理四个,八个,十六个(还是利用上一次的结果建立二元组,如果不理解为什么是二元组,请再思考一下)……

拓展

用这种倍增的方法就可以把构造后缀数组的时间缩短到O(X*log2(n))了!其中X是每次的复杂度,如果用快排,X=n*log2(n),但是我们可以用基数排序,把X缩减为n。最后我们就可以直接用后缀数组来二分查找了。

模板

#include<cstdio>
#include<cstring>
using namespace std;
const int maxn=1005,maxl=1005,maxw=15;

int n,K,len,SA[maxl],rk[maxl],t[maxl],ha[maxl]; //rk表示rank即名次(可以有重复)
char now[maxl];

void make_SA(char* s) //构造后缀数组SA,MAX表示名次最大值
{
    int MAX=0;len=strlen(s+1);
    memset(ha,0,sizeof(ha)); //基数排序数组清0
    for (int i=1;i<=len;i++) {ha[rk[i]=s[i]]++;if (rk[i]>MAX) MAX=rk[i];} //刚开始的名次并不用去算,直接用ASCII码
    for (int i=1;i<=MAX;i++) ha[i]+=ha[i-1]; //叠加,得到名次
    for (int i=len;i>=1;i--) SA[ha[rk[i]]--]=i; //倒着枚举可以保证当重复的时候靠前的名次小
    //因为前面叠加过了,所以已经分成了一个一个片区
    for (int k=1;k<=len;k<<=1)
    {
        int p=0;
        for (int i=len-k+1;i<=len;i++) t[++p]=i; //t是第二关键字,t[i]表示第二关键字第i小的是谁
        //后面的几个第二关键字为0,所以是最小的
        for (int i=1;i<=len;i++) if (SA[i]>k) t[++p]=SA[i]-k; //如果SA[i]>k说明SA[i]可以被当成SA[i]-k的第二关键字
        //由于SA有序,所以这么处理后t也有序
        memset(ha,0,sizeof(ha)); //基数排序构造新的SA数组 
        for (int i=1;i<=len;i++) ha[rk[t[i]]]++; //这里也可以写ha[rk[i]],因为t[i]是1~len的全排列
        for (int i=1;i<=MAX;i++) ha[i]+=ha[i-1]; //叠加
        for (int i=len;i>=1;i--) SA[ha[rk[t[i]]]--]=t[i]; //用t[i]控制第二关键字小的先编号
        //如果理解了上面的基数排序,这里就不难理解了
        memcpy(t,rk,sizeof(t)); //把之前的rank拷贝一份,因为t没用了,所以直接给t
        p=1;rk[SA[1]]=1; //排名第一的绝对还是排名第一(或并列第一)
        for (int i=2;i<=len;i++) //构造新的rank
            if (t[SA[i-1]]==t[SA[i]]&&t[SA[i-1]+k]==t[SA[i]+k]) rk[SA[i]]=p; else rk[SA[i]]=++p;
        //如果发现二元组相同,那么排名相同,否则排名+1
        if (p==len) break; //排名达到了n,说明没有重复的排名出现,后缀数组SA构造完成
        MAX=p; //下次的MAX就是p了
    }
}
int findL(char *s) //二分查找最后一个小于s的后缀
{
    int n=strlen(s+1),L=1,R=len,mid;
    while (L<=R)
    {
        mid=L+(R-L>>1);int d=strncmp(now+SA[mid],s+1,n);
        if (d<0) L=mid+1; else R=mid-1;
    }
    return R+1;
}
int findR(char *s) //二分查找最前一个大于s的后缀
{
    int n=strlen(s+1),L=1,R=len,mid;
    L=1;R=len;
    while (L<=R)
    {
        mid=L+(R-L>>1);int d=strncmp(now+SA[mid],s+1,n);
        if (d>0) R=mid-1; else L=mid+1;
    }
    return L-1;
}
//findR(w)-findL(w)+1就是w的匹配个数
bool Eoln(char ch) {return ch==10||ch==13||ch==EOF;}
int reads(char* s)
{
    int len=0;
    char ch=getchar();if (ch==EOF) return 2;
    s[++len]=ch;while (!Eoln(s[len])) s[++len]=getchar();s[len--]='\0';
    return 0;
}
int main()
{
    freopen("Suffix.in","r",stdin);
    freopen("Suffix.out","w",stdout);
    reads(now);make_SA(now);
    return 0;
}
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值