题意:
给了一列N个数,(1 ≤ N ≤ 20,000),然后给一个正整数K(2 ≤ K ≤ N)...现在问这列数中重复K次的最长子串是多少(可以有重叠部分)
题解:
先用后缀数组求出height...由于有性质: LCP(i,j)=min(LCP(k,k+1),i<=k<j)...所以可以用线段树求区间最小值...也可以二分了以后直接来判断答案..
LCP的意思是最长公用前缀..也就是:
M=0;
whlie (a[M]==b[M]) M++;
得到的M就是LCA(a,b)...
比如两个串abcd abce的最长公共前缀是3..
而上面提到的LCP(i,j)=min(LCP(k,k+1),i<=k<j)..指的是已经做好的后缀数组SA[i]与SA[j]的最长公共前缀..假设i<j...那么它们的最长公共子串等于在LCP(SA[k],SA[k+1],i<=k<j 的最小值。也不难理解..举例:
abaabc的SA为:
1、aabc
2、abaabc
3、abc
4、baabc
5、bc
6、c
求LCP(1,3)则等于min(LCP(1,2),LCP(2,3))=min(1,2)=1
Program(线段树):
#include<iostream>
#include<stdio.h>
#include<string.h>
#include<set>
#include <stack>
#include<queue>
#include<algorithm>
#include<cmath>
#define eps 1e-4
#define oo 1000000007
#define MAXN 20105
#define MAXM 100005<<1
#define ll long long
#define pi acos(-1.0)
using namespace std;
//----------------后缀数组模板--------------------
//sa[]是存好的后缀排序起点
//rank[]是存着每个后缀的排序后位置(后面重新统计得到)
//hight[]存的是排好序后前后两个后缀最长公共前缀
//后缀数组中的所有元素是非负数
const int maxn = 1000005;
int rank[maxn],wb[maxn],wv[maxn],wss[maxn];
int n;
bool cmp(int *r,int a,int b,int l)
{
return r[a]==r[b] && r[a+l]==r[b+l];
}
void da(int *r,int *sa,int n,int m) // n串的总长+1,m字符集的个数
{
int i,j,p,*x=rank,*y=wb,*t;
for(i=0;i<m;i++) wss[i]=0;
for(i=0;i<n;i++) wss[x[i]=r[i]]++;
for(i=1;i<m;i++) wss[i]+=wss[i-1];
for(i=n-1;i>=0;i--) sa[--wss[x[i]]]=i;
for(j=1,p=1;p<n;j*=2,m=p)
{
for(p=0,i=n-j;i<n;i++) y[p++]=i;
for(i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j;
for(i=0;i<n;i++) wv[i]=x[y[i]];
for(i=0;i<m;i++) wss[i]=0;
for(i=0;i<n;i++) wss[wv[i]]++;
for(i=1;i<m;i++) wss[i]+=wss[i-1];
for(i=n-1;i>=0;i--) sa[--wss[wv[i]]]=y[i];
for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i<n;i++)
x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
}
return;
}
int height[maxn];
void calheight(int *r,int *sa,int n) // 得到的height的下标是1~n
{
int i,j,k=0;
for(i=1;i<=n;i++) rank[sa[i]]=i;
for(i=0;i<n;height[rank[i++]]=k)
for(k?k--:0,j=sa[rank[i]-1];r[i+k]==r[j+k];k++);
return;
}
//----------------后缀数组模板--------------------
int sum[MAXN<<4];
void update(int p,int x,int l,int r,int now)
{
if (l==r) { sum[now]=x; return; }
int mid=l+r>>1;
if (p<=mid) update(p,x,l,mid,now<<1);
if (p>mid) update(p,x,mid+1,r,now<<1|1);
sum[now]=min(sum[now<<1],sum[now<<1|1]);
}
int query(int L,int R,int l,int r,int now)
{
if (L<=l && R>=r) return sum[now];
int mid=l+r>>1,ans=1<<30;
if (L<=mid) ans=query(L,R,l,mid,now<<1);
if (R>mid) ans=min(ans,query(L,R,mid+1,r,now<<1|1));
return ans;
}
int s[maxn],sa[maxn];
int main()
{
int n,i,k,ans;
while (~scanf("%d%d",&n,&k))
{
for (i=0;i<n;i++) scanf("%d",&s[i]),s[i]++;
da(s,sa,n+1,1000000); // 注意是代入n+1
calheight(s,sa,n);
for (i=1;i<=n;i++) update(i,height[i],1,n,1); //height下标从1开始
ans=0;
for (i=1;i<=n-k+1;i++)
ans=max(ans,query(i+1,i+k-1,1,n,1));
printf("%d\n",ans);
}
return 0;
}
Program(二分):
#include<iostream>
#include<stdio.h>
#include<string.h>
#include<set>
#include <stack>
#include<queue>
#include<algorithm>
#include<cmath>
#define eps 1e-4
#define oo 1000000007
#define MAXN 20105
#define MAXM 100005<<1
#define ll long long
#define pi acos(-1.0)
using namespace std;
//----------------后缀数组模板--------------------
//sa[]是存好的后缀排序起点
//rank[]是存着每个后缀的排序后位置(后面重新统计得到)
//hight[]存的是排好序后前后两个后缀最长公共前缀
//后缀数组中的所有元素是负数
const int maxn = 1000005;
int rank[maxn],wb[maxn],wv[maxn],wss[maxn];
int n;
bool cmp(int *r,int a,int b,int l)
{
return r[a]==r[b] && r[a+l]==r[b+l];
}
void da(int *r,int *sa,int n,int m) // n串的总长+1,m字符集的个数
{
int i,j,p,*x=rank,*y=wb,*t;
for(i=0;i<m;i++) wss[i]=0;
for(i=0;i<n;i++) wss[x[i]=r[i]]++;
for(i=1;i<m;i++) wss[i]+=wss[i-1];
for(i=n-1;i>=0;i--) sa[--wss[x[i]]]=i;
for(j=1,p=1;p<n;j*=2,m=p)
{
for(p=0,i=n-j;i<n;i++) y[p++]=i;
for(i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j;
for(i=0;i<n;i++) wv[i]=x[y[i]];
for(i=0;i<m;i++) wss[i]=0;
for(i=0;i<n;i++) wss[wv[i]]++;
for(i=1;i<m;i++) wss[i]+=wss[i-1];
for(i=n-1;i>=0;i--) sa[--wss[wv[i]]]=y[i];
for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i<n;i++)
x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
}
return;
}
int height[maxn];
void calheight(int *r,int *sa,int n) // n=1时会报错,特判
{
int i,j,k=0;
for(i=1;i<=n;i++) rank[sa[i]]=i;
for(i=0;i<n;height[rank[i++]]=k)
for(k?k--:0,j=sa[rank[i]-1];r[i+k]==r[j+k];k++);
return;
}
//----------------后缀数组模板--------------------
bool check(int mid,int len,int k) //长度为mid的子串是否出现了k次
{
int i,j,ans=0;
for(i=2;i<=len;i++)
{
if(height[i]<mid) ans=0;
else
{
ans++;
if(ans==k-1)return 1;
}
}
return 0;
}
int s[maxn],sa[maxn];
int main()
{
int n,i,k,l,r,mid;
while (~scanf("%d%d",&n,&k))
{
for (i=0;i<n;i++) scanf("%d",&s[i]),s[i]++;
da(s,sa,n+1,1000000);
calheight(s,sa,n);
l=0,r=n;
while (r-l>1)
{
mid=r+l>>1;
if (check(mid,n,k)) l=mid;
else r=mid;
}
printf("%d\n",l);
}
return 0;
}