【算法与数据结构】——后缀数组

参考后缀数组

基数排序

后缀数组的实现用到了基数排序,简单介绍一下基数排序的内容。
基数排序是桶排序的一种扩展,是一种多关键字的排序方法。若记录按照多个关键字排序,则依次按照这些关键字进行排序。
例如字符串的排序,字符串比较大小的方法如下

从第0个位置开始比较。如果相同,继续往后比;
如果不同,则当前位置字符ASCII码大的对应字符串更大。
如果仍无法比较大小,则长度长的字符串更大,否则两者相等。
例如:
ABC>AACD
ABC>AB
ABC=ABC

关于基数排序的知识可以参考我的这篇博客【算法与数据结构】——基数排序

后缀数组

1.后缀,指从某个位置开始到字符串末尾的一个特殊字串。字符串s从第i个字符开始的后缀被表示为Suffix(i),也可称之为下标为i的后缀。
2.后缀数组,将所有后缀都从小到大排序后,将排好序的后缀的下标i放入数组中,该数组就叫做后缀数组。
3.排名数组,排名数组指下标为i的后缀排序后的名次,

后缀数组的构建

构建后缀数组的方法主要有两种,DC3算法和倍增算法。DC3算法的时间复杂度为O(n),倍增算法时间复杂度为O(nlogn)。一般n>1e6时,DC3算法比倍增算法运行速度快,但是DC3算法的常数和代码量较大,因此倍增算法比较常用。

采用倍增算法

代码如下,关于代码的分析参考一开始给出的博客即可。

#include<bits/stdc++.h>
using namespace std;
const int maxn = 1000010;
int n;
char s[maxn];//源字符串
int sa[maxn],rak[maxn],height[maxn];
int p[maxn],tmp[maxn],cnt[maxn];
bool equ(int x,int y,int l){
    return rak[x] == rak[y] && rak[x + l] == rak[y + l];
}
void suffix(){
//    for(int i = n;i;--i)
//     s[i] = s[i - 1];
    for(int i = 1;i <= n;++i){
        rak[i] = s[i];
        sa[i] = i;
    }
    for(int l = 0 , pos = 0 , sig = 255;pos < n;sig = pos){
        pos = 0;
        for(int i = n - l + 1;i <= n;++i)
          p[++pos] = i;
        for(int i = 1;i <= n;++i)
          if(sa[i] > l) p[ ++pos ] = sa[i] - l;
        for(int i = 0;i <= sig;i++)
        {
            cnt[i]=0;
        }
        for(int i = 1;i <= n;++i)
          ++cnt[rak[i]];
        for(int i = 1;i <= sig;++i)
          cnt[i] += cnt[i - 1];
        for(int i = n;i;--i)
          sa[cnt[rak[p[i]]] -- ] = p[i];
        pos = 0;
        for(int i = 1;i <= n;++i)
          tmp[sa[i]] = equ(sa[i] , sa[i - 1] , l)?pos:++pos;
        for(int i = 1;i <= n;++i)
          rak[i] = tmp[i];
        l = !l? 1 : l << 1;
    }
    return;
}
void calheight()
{
    int k = 0;
    for(int i = 1;i <= n;i++)
    {
        if(k) k--;
        int j = sa[rak[i]-1];
        while(s[i+k]==s[j+k])
        {
            k++;
        }
        height[rak[i]]=k;
    }
}

int main(){
    scanf("%s",s+1);
    n = strlen(s+1);
    suffix();
    for(int i = 1;i <= n;++i)
    {
        printf("%d ",sa[i]);
    }
    return 0;
}

LCP 最长公共前缀

height数组,height[i]表示suffix(sa[i])和suffix(sa[i-1])的最大公共前缀长度,
关于height数组求解过程的详细讲解可以参考后缀数组 最详细讲解这篇博客。我在这里只是记录一下代码:

void calheight()
{
    int k = 0;
    for(int i = 1;i <= n;i++)
    {
        if(k) k--;
        int j = sa[rak[i]-1];
        while(s[i+k]==s[j+k])
        {
            k++;
        }
        height[rak[i]]=k;
    }
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值