题意:给定一个字符串,求重复次数最多的连续重复子串,当有多个时,输出字典序最小的。
这题是上一题升级版,主体思路可以参考 SPOJ 687 Repeats (后缀数组+RMQ 重复次数最多的连续重复子串) - whyorwhnt的专栏
本题要求输出字典序最小的,所以需要保存所有满足要求的长度,然后暴力枚举SA数组,由SA数组的性质,第一个满足条件的一定是字典序最小的。
#include <cstdio>
#include <cmath>
#include <cstring>
#include <algorithm>
#define max(a,b) ((a)>(b)?(a):(b))
#define min(a,b) ((a)<(b)?(a):(b))
const int N = int(1e5)+10;
#define F(x) ((x)/3+((x)%3==1?0:tb))
#define G(x) ((x)<tb?(x)*3+1:((x)-tb)*3+2)
int wa[N],wb[N],wv[N],ws[N];
int c0 (int *r,int a,int b){
return r[a]==r[b] && r[a+1]==r[b+1] && r[a+2]==r[b+2];
}
int c12 (int k,int *r,int a,int b){
if (k==2) return r[a]<r[b] || r[a]==r[b] && c12(1,r,a+1,b+1);
else return r[a]<r[b] || r[a]==r[b] && wv[a+1]<wv[b+1];
}
void sort (int *r,int *a,int *b,int n,int m){
int i;
for(i=0;i<n;i++) wv[i]=r[a[i]];
for(i=0;i<m;i++) ws[i]=0;
for(i=0;i<n;i++) ws[wv[i]]++;
for(i=1;i<m;i++) ws[i]+=ws[i-1];
for(i=n-1;i>=0;i--) b[--ws[wv[i]]]=a[i];
}
void DC3 (int *r,int *sa,int n,int m){
int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p;
r[n]=r[n+1]=0;
for(i=0;i<n;i++) if(i%3!=0) wa[tbc++]=i;
sort(r+2,wa,wb,tbc,m);
sort(r+1,wb,wa,tbc,m);
sort(r,wa,wb,tbc,m);
for(p=1,rn[F(wb[0])]=0,i=1;i<tbc;i++)
rn[F(wb[i])]=c0(r,wb[i-1],wb[i])?p-1:p++;
if(p<tbc) DC3(rn,san,tbc,p);
else for(i=0;i<tbc;i++) san[rn[i]]=i;
for(i=0;i<tbc;i++) if(san[i]<tb) wb[ta++]=san[i]*3;
if(n%3==1) wb[ta++]=n-1;
sort(r,wb,wa,ta,m);
for(i=0;i<tbc;i++) wv[wb[i]=G(san[i])]=i;
for(i=0,j=0,p=0;i<ta && j<tbc;p++)
sa[p]=c12(wb[j]%3,r,wa[i],wb[j])?wa[i++]:wb[j++];
for(;i<ta;p++) sa[p]=wa[i++];
for(;j<tbc;p++) sa[p]=wb[j++];
}
int rank[N],height[N],sa[3*N],data[3*N];
void calheight(int *r,int *sa,int n){
// memset(height,0,sizeof(height));
// memset(rank,0,sizeof(rank));
int i,j,k=0;
for(i=1;i<=n;i++) rank[sa[i]]=i;
for(i=0;i<n; height[rank[i++]] = k )
for(k?k--:0,j=sa[rank[i]-1]; r[i+k]==r[j+k]; k++);
}
char str[N];
int Log[N],best[20][N];
void initRMQ (int n){//初始化RMQ
int i;
Log[0] = -1;
for (i=1;i<=n;i++)
Log[i]=(i&(i-1))?Log[i-1]:Log[i-1]+1;
for (i=1;i<=n;i++) best[0][i]=height[i];
for (i=1;i<=Log[n];i++){
int limit=n-(1<<i)+1;
for (int j=1;j<=limit;j++)
best[i][j] = min(best[i-1][j] , best[i-1][j+(1<<i>>1)]);
}
}
int lcp (int a,int b){//询问a,b后缀的最长公共前缀
a=rank[a]; b=rank[b];
if (a>b) std::swap(a,b);
a++;
int t=Log[b-a+1];
return min(best[t][a] , best[t][b - (1<<t) + 1]);
}
int len[N];
int main ()
{
int Cas=1;
while (scanf("%s",str),str[0]!='#')
{
int n=strlen(str);
int i,j;
for (i=0;i<n;i++)
data[i]=str[i];
data[n]=0;
DC3(data,sa,n+1,128);
calheight(data,sa,n);
initRMQ(n);
memset(len,0,sizeof(len));
int ans=0,num=0;
for (i=1;i<n;i++) //枚举长度
for (j=0;j+i<n;j+=i) //+i极大的降低了复杂度
{//但也产生了需要向前比较的问题
int k = lcp(j,j+i); //公共后缀的长度
int cnt = k/i+1; //出现次数
int t = j- (i - k%i); //前推到t位置
if (t>=0 && lcp(t,t+i)>=(i-k%i))
cnt++;
if (cnt==ans)
len[num++]=i;
else if (cnt>ans)
{
ans=cnt;
num=0;
len[num++]=i;
}
}
int start,l;
for (i=1;i<=n;i++)
{//暴力枚举每个sa后缀
int beg = sa[i];
for (j=0;j<num;j++)
{
int ll = len[j];//每一段长度
if (beg+ll<n && lcp(beg,beg+ll)>=(ans-1)*ll)
{
start=beg;
l=ans*ll;
i=n;
break;
}
}
}
str[start+l]=0;
printf("Case %d: %s\n",Cas++,str+start);
}
return 0;
}