后缀数组

最新推荐文章于 2024-07-15 11:27:12 发布

orzlzro

最新推荐文章于 2024-07-15 11:27:12 发布

阅读量552

点赞数

分类专栏： Algorithm 文章标签： ini

本文链接：https://blog.csdn.net/orzlzro/article/details/6413613

版权

Algorithm 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

后缀数组就是要计算一个数组sa，sa[i]表示排名第i的后缀。可以直接按照后缀做一个快速排序就可以得到sa，但是时间复杂度会是O(nlogn * n)。（因为要做nlogn次比较，每次比较都是比较两个后缀的大小，需要O(n)）

可以利用一个性质：我们让运算符“≤”表示两个串按照字典序比较，然后定义运算符“≤_h”表示两个串的前h个字符按照字典序比较（=_h、<_h等同理），那么就有： 若A_j =_h A_k且A_j+h ≤_h A_k+h，则A_j ≤_2h A_k （j+h, k+h < n，“≤”换成“=、<、>”等等依然成立）

所以，先根据每个后缀的前h个字符排序，然后根据排序的结果，根据每个后缀的前(h=2h)个字符排序。直到h>=n

#include <iostream> #include <algorithm> using namespace std; #define maxn 100 int A[maxn]; int sa[maxn],rank[maxn],r[maxn],height[maxn]; int k; int n; bool cmp1(const int &a,const int &b) { return A[a]<A[b]; } bool cmp2(const int &a,const int &b) { return (rank[a]<rank[b]) || (rank[a]==rank[b] && ((a+k<n?rank[a+k]:-1)<(b+k<n?rank[b+k]:-1))); } void suffixArray() { for(int i=0;i<n;i++) sa[i]=i; sort(sa,sa+n,cmp1); rank[sa[0]]=0; for(int i=1,j=0;i<n;i++) { if(A[sa[i]]!=A[sa[i-1]]) j++; rank[sa[i]]=j; } for(k=1;k<n;k*=2) { sort(sa,sa+n,cmp2); r[sa[0]]=0; for(int i=1,j=0;i<n;i++) { if(cmp2(sa[i],sa[i-1]) || cmp2(sa[i-1],sa[i])) j++; r[sa[i]]=j; } memcpy(rank,r,n*sizeof(int)); } } /* 先计算后缀i的height，然后计算后缀为i+1的height。按顺序计算设h[i]=height[rank[i]],则h[i+1]>=h[i]-1 即h[i]表示后缀i与排名在后缀i前面的后缀的LCP(longest common prefix)。那么后缀i+1与排名在后缀i+1前面的后缀的LCP大于等于h[i]-1 */ void calcHeight() { int k,h=0; for (int i=0;i<n;i++) { if (rank[i]==0) h=0; else { k=sa[rank[i]-1]; //排名在后缀i前面的后缀 if (--h<0) h=0; for (;A[i+h]==A[k+h];h++); /*h保存的是后缀i-1的h，因为h[i]>=h[i-1]-1，所以此处只需要比较suffix(i)和suffix(k)的第h个字符是否相同就行了*/ } height[rank[i]]=h; } } int main() { while(1) { cin>>n; if(n==-1) break; for(int i=0;i<n;i++) cin>>A[i]; //A[n]=-1; //n++; suffixArray(); calcHeight(); for(int i=0;i<n;i++) cout<<sa[i]<<" "; cout<<endl; for(int i=0;i<n;i++) cout<<rank[i]<<" "; cout<<endl; } }

计算最长公共前缀

height[i]=suffix(sa[i-1])和suffix(sa[i])的最长公共前缀。即height[i]表示排名是i和i-1的最长公共前缀

如果按照直接计算height，由于每次计算height[i]，都要比较两个字符串，复杂度为O(n)。所以计算height需要o(n*n)

定义h[i]=height[rank[i]]。即suffix(i)和排名在suffix(i)前面的后缀的LCP

h[i]有个性质:h[i+1]>=h[i]-1。

证明：

如果h[i]<1，上式必然成立。

如果h[i]>=1

设排名在suffix(i)前面的后缀为k。那么h[i]就是suffix(i)和suffix(k)的LCP。

那么，suffix(k+1) 的排名必然在suffix(i+1)前面。（因为，如果h[i]>=1，所以suffix(i)和suffix(k)的前h[i]个是相同的，suffix(k)的第h[i]+1个字符必然小于 suffix(i)的第h[i]+1个字符）。 suffix(k+1)和suffix(i+1)的最长公共前缀肯定要大于等于h[i]-1。所以，suffix(i+1) 与排名在suffix(i+1)前面的后缀之间的LCP必然也大于等于h[i]-1。