hash接近尾声了,写篇博客记录一下。
首先最简单的就是,暴力拿出n个后缀然后sort,这样复杂度是n^2log n,不大行,有什么更好的方法吗。
回想一下如何比较两个字符串的字典序,那就是遇到第一个不相同的字符然后比较大小,所以我们是不是可以先求出lcp,然后下一个位置就是不同的字符呢?根据这一点,我们就可以设计出排序+hash+二分的后缀数组算法了。
#include<iostream>
#include<algorithm>
#include<cstdio>
#include<cstring>
#define ull unsigned long long
using namespace std;
int sa[300005],p[300005],ha[300005],len;
char s[300005];
ull geth(int l,int r)
{
return ha[r]-ha[l-1]*p[r-l+1];
}
int fin(int a,int b)
{
int l=0,r=len-max(a,b)+1;//这两个a,b是位置,不是长度,要切记啊
while(l<r)
{
int mid=l+r+1>>1;
if(geth(a,a+mid-1)==geth(b,b+mid-1))
{
l=mid;
}
else
{
r=mid-1;
}
}
return l;
}
bool cmp(int a,int b)
{
int x=fin(a,b);
return s[a+x]<s[b+x];
}
int main()
{
cin>>s+1;
len=strlen(s+1);
p[0]=1;
for(int i=1;i<=len;i++)
{
sa[i]=i;
p[i]=p[i-1]*131;
ha[i]=ha[i-1]*131+(s[i]-'a'+1);
}
sort(sa+1,sa+len+1,cmp);
for(int i=1;i<=len;i++)
{
printf("%d ",sa[i]-1);
}
printf("\n");
printf("0 ");
for(int i=2;i<=len;i++)
{
printf("%d ",fin(sa[i],sa[i-1]));
}
}