算法分析
这题的做法和上一题(poj1763)差不多,也是先二分答案,然后将后缀分成若干组。不同的是,这里要判断的是:有没有一个组的后缀个数不小于k。如果有,那么存在k个相同的子串满足条件,否则不存在。这个做法的时间复杂度为O(nlogn)。
#include<cstdio>
#include<cstdlib>
#include<cstring>
#include<iostream>
using namespace std;
int wr[21000],rank[21000],a[21000];
int hei[21000],sa[21000],rsort[21000],y[21000];
bool cmp(int a,int b,int l)
{return wr[a]==wr[b] && wr[a+l]==wr[b+l];}
void getsa(int n,int m)//构建SA后缀数组(即:排第几的是谁)
{
int i,j,k,p,ln;
for(int i=1;i<=n;i++) rank[i]=a[i];
//a数组:原字符串,rank名次数组(即:你排第几)
for(int i=0;i<=m;i++) rsort[i]=0;
for(int i=1;i<=n;i++) rsort[rank[i]]++;
for(int i=1;i<=m;i++) rsort[i]+=rsort[i-1];
for(int i=n;i>=1;i--) sa[rsort[rank[i]]--]=i;
//以上四句为基数排序
ln=1;p=0;
//ln为当前子串的长度,p表示有多少不相同的子串
while(p<n)
//如果p等于n,那么函数可以结束。因为在当前长度的字符串中,已经没有相同的字符串,接下来的排序不会改变rank值。
{
k=0;
for(int i=n-ln+1;i<=n;i++) y[++k]=i;
for(int i=1;i<=n;i++) if (sa[i]>ln) y[++k]=sa[i]-ln;
for(int i=1;i<=n;i++) wr[i]=rank[y[i]];
//数组y保存的是对第二关键字排序的结果。
//数组wr保存的是对第二关键字排序后的rank值
//以下为对第一关键字排序
for(int i=0;i<=m;i++) rsort[i]=0;
for(int i=1;i<=n;i++) rsort[wr[i]]++;
for(int i=1;i<=m;i++) rsort[i]+=rsort[i-1];
for(int i=n;i>=1;i--) sa[rsort[wr[i]]--]=y[i];
for(int i=1;i<=n;i++) wr[i]=rank[i];
rank[sa[1]]=1; p=1;
for(int i=2;i<=n;i++)
{
if(!cmp(sa[i],sa[i-1],ln)) p++;
rank[sa[i]]=p;
}
//得到新的rank数组。这里要注意的是,可能有多个字符串的rank值是相同的,所以必须比较两个字符串是否完全相同
m=p; ln*=2;
}
}
void gethei(int n)
{
int i,j,k=0;
for(i=1;i<=n;i++)
{
if(k) k--;
j=sa[rank[i]-1];
while (a[j+k]==a[i+k]) k++;
hei[rank[i]]=k;
}
}
bool check(int n,int k,int k1)
{
int len=1;
for(int i=2;i<=n;i++)
{
if(hei[i]<k) len=1;
else len++;
if(len>=k1) return true;
}
return false;
}
void erfen(int n,int k1)//二分
{
int l,r,mid,ans;
l=0;r=n;
while(l<=r)
{
mid=(l+r)/2;
if(check(n,mid,k1))
{
ans=mid;
l=mid+1;
}
else r=mid-1;
}
printf("%d\n",ans);
}
int main()
{
int n,k1;
while(scanf("%d%d",&n,&k1)!=EOF)
{
for(int i=1;i<=n;i++)scanf("%d",&a[i]);
getsa(n,21000);
gethei(n);
erfen(n,k1);
}
return 0;
}