后缀数组（倍增法）

H煊

于 2017-09-07 23:33:42 发布

阅读量1.4k

点赞数 1

分类专栏：常用模板

本文链接：https://blog.csdn.net/m0_37846371/article/details/77887958

版权

常用模板专栏收录该内容

37 篇文章 0 订阅

订阅专栏

后缀数组（Suffix Array）：将某个字符串的所有后缀按字典序排序后得到的数组。

算法：朴素实现：直接将所有后缀进行排序，将n个长度为O(n)的字符串进行排序，时间复杂度O(n^2*logn)；倍增算法：通过充分利用各个后缀之间的联系，将构造后缀数组的最坏时间复杂度成功降至O(n*logn)。

倍增法实现：首先计算从每个位置开始的长度为1的子串的顺序，再利用这个结果计算长度为2的子串的顺序，接下来计算长度为4的子串的顺序，不断倍增，直到长度大于等于n就得到了后缀数组。

下面，我们用sa[i]表示按字典序排序后第i小子串的开始位置；用S[sa[i],k]表示从位置sa[i]开始的长度为k的字符串子串，其中，剩余字符不足k个时，表示的是从sa[i]开始到字符串末尾的子串；rank[sa[i]]为S[sa[i],k]在所有排好序的长度为k的子串中是第几小的（核心：rank[sa[i]]=i，其中i代表第几小）。

最后，从每个位置开始的排序部分，因为比较rank[sa[i]]和rank[sa[j]]就相当于比较S[sa[i],k]和S[sa[j],k]，比较rank[sa[i]+k]和rank[sa[j]+k]就相当于比较S[i+k,k]和S[j+k,k]（或S[i,2*k]和S[j,2*k]）。所以，我们可以利用上一步的rank来高效地比较长度为2*k的子串，并将它们排序。

代码：

int n,k;
int rank[max_n+1];
int tmp[max_n+1];

//比较（rank[i],rank[i+k]）和（rank[j],rank[j+k]）
bool cmp_sa(int i,int j)
{
        if(rank[i]!=rank[j])   return rank[i]<rank[j];
        else{
                 int ri=i+k<=n?rank[i+k]:-1;
                 int rj=j+k<=n?rank[j+k]:-1;
                 return ri<rj;
        }
}

//计算字符串S的后缀数组
void creat_sa(string S,int *sa)
{
        n=S.length();

        //初始长度为1，rank直接取字符的编码
       for(int i=0;i<=n;i++)
       {
               sa[i]=i;
               rank[i]=i<n?S[i]:-1;
       }

       //利用对长度为k的排序的结果对长度为2*k的排序
       for(k=1;k<=n;k*=2)
       {
              sort(sa,sa+n+1,cmp_sa);
         
              //先在tmp中临时储存新计算的rank，再转存回rank中
              tmp[sa[i]]=0;
              for(int i=1;i<=n;i++)
                       tmp[sa[i]]=tmp[sa[i-1]]+(cmp_sa(sa[i-1],sa[i])?1:0);
              for(int i=0;i<=n;i++)
                        rank[i]=tmp[i];
        }
}

H煊

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
后缀数组（倍增法）

后缀数组（Suffix Array）：将某个字符串的所有后缀按字典序排序后得到的数组。算法：朴素实现：直接将所有后缀进行排序，将n个长度为O(n)的字符串进行排序，时间复杂度O(n^2*logn)；倍增算法：通过充分利用各个后缀之间的联系，将构造后缀数组的最坏时间复杂度成功降至O(n*logn)。倍增法实现：首先计算从每个位置开始的长度为1的子串的顺序，再利用这个结果计算长度为2的子串的顺
复制链接

扫一扫