后缀数组模板
基本概念
所谓高度数组,就是由后缀数组中相邻的两个后缀的最长公共前缀的长度组成的数组。设后缀数组为sa,高度数组为lcp。那么串S[sa[i]…]与串S[sa[i+1]…]的最长公共前缀的长度就是lcp[i].
计算高度数组
运用类似尺取法的技巧。我们从位置0的后缀开始,从前往后依此计算S[i…]与S[sa[rank[i]-1]](即后缀数组中的前一个后缀)的最长公共前缀的长度。
假设我们已经求出了位置i对应的高度hi,要求位置i+1的高度,我们只需从hi-1开始检查,计算最长公共前缀的长度就好了。
可以证明位置i+1的高度不低于hi-1.设k=sa[rank[i]-1],已知S[i…]与S[k…]的头hi个字符相同,那么S[i+1…]与S[k+1…]的头hi-1个字符相同。而S[i+1…]在后缀数组中的前一个元素虽然未必是S[k+1…],但公共前缀的长度是只增不减的。
高度数组模板
输入:字符串s
输出:后缀数组sa和高度数组lcp
代码
#include <bits/stdc++.h>
using namespace std;
const int maxn=121;
int rank[maxn+1],tmp[maxn+1],n,k;
bool compare_sa(int i,int j)
{
if(rank[i]!=rank[j]) return rank[i]<rank[j];
else
{
int ri=i+k<=n?rank[i+k]:-1;
int rj=j+k<=n?rank[j+k]:-1;
return ri<rj;
}
}
void construct_sa(string s,int *sa)
{
n=s.size();
for(int i=0;i<=n;i++)
{
sa[i]=i;
rank[i]=i<n?s[i]:-1;
}
for(k=1;k<=n;k*=2)
{
sort(sa,sa+n+1,compare_sa);
//tmp不能省
tmp[sa[0]]=0;
for(int i=1;i<=n;i++)
{
tmp[sa[i]]=tmp[sa[i-1]]+(compare_sa(sa[i-1],sa[i])?1:0);//括号必须加
}
for(int i=0;i<=n;i++) rank[i]=tmp[i];
}
}
void construct_lcp(string s,int *sa,int *lcp)
{
int n=s.length();
for(int i=0;i<=n;i++) rank[sa[i]]=i;//取消相同排名
int h=0;
lcp[0]=0;//空串与第一个后缀的最长公共前缀为空
for(int i=0;i<n;i++)
{
//计算字符串中从位置i开始的后缀和其在后缀数组中的前一个后缀的LCP
int j=sa[rank[i]-1];
//将h先减去首字母的1长度,在保持前缀相同前提下不断增加
if(h>0) h--;
for(;j+h<n && i+h<n;h++)
{
if(s[j+h]!=s[i+h]) break;
}
lcp[rank[i]-1]=h;
}
}
int main()
{
string s;
int sa[maxn],lcp[maxn];
while(cin>>s)
{
int len=s.size();
//求后缀数组
construct_sa(s,sa);
//求高度数组
construct_lcp(s,sa,lcp);
//输出
for(int i=0;i<=len;i++)
{
cout<<i<<" "<<sa[i]<<" "<<lcp[i]<<endl;
}
}
return 0;
}
扩展
求任意两个后缀的最长公共前缀的长度?
假设rank[i]小于rank[j],那么位置i的后缀与位置j的后缀的最长公共前缀的长度为lcp[rank[i]],lcp[rank[i]+1],lcp[rank[i]+2],…,lcp[rank[j]-1]中的最小值。
而范围最小值问题可以用RMQ算法高效解决。