题意:求重复次数最多的连续重复子串,并且要求字典序最小的.
//别人的分析
分析:
容易想到的就是枚举长度为L,然后看长度为L的字符串最多连续出现几次。
长度为L的串重复出现,那么st[0],st[l],st[2*l]……st[k*l]中肯定有两个连续的出现在字符串中。不然肯定长度不超过2*L啊。那么我们就枚举连续的两个,然后从这两个字符前后匹配,看最多能匹配多远。
即以st[i*l],st[i*l+l]前后匹配,这里是通过查询suffix(i*l),suffix(i*l+l)的最长公共前缀
通过rank值能找到i*l,与i*l+l的排名,我们要查询的是这段区间的height的最小值,通过RMQ预处理达到查询为0(1)的复杂度,设LCP长度为M, 则答案显然为M / L + 1, 但这只是以i*l和i*l+l为起点的情况, 不过有一点是可以确定的。如果目标子串包含了i*l和i*l+l。那么 i*l一定是和i*l+l匹配的。因为目标串中p一定和p+l匹配。这样才能满足子串长度为l。先在要解决的就是起点不在这两个位置上怎么办了。
得到M/L+1我们可以试着把答案变大。如果M%L!=0我们可以把长度补齐到L的整数倍。即在前面增加(L-M%L)的字符.看能不能使答案变大。为什么这样做是可以的呢?因为我们要使啊、答案变大往后扩展肯定不行了。因为后面已经不匹配了。但是我们为什么扩展 (L-M%L)这么多就行了呢。比这个小肯定是不行的。因为还是没到L的整数倍。比这个多能行的话。去这个值一定能行。因为p是和p+L匹配的。既然取得比这个多。大不了往右平移几个还是能使 M%L得到匹配。那为什么只扩展一个长度L。不扩展多个呢。因为你是枚举每个i*l和i*l+l。你扩展2个或两个以上就是前面的 i*l和i*l+l的情况了。这一步完成后我们只能得到度数最大长度可能的取值。剩下的工作就是找字典序最小了。 通过sa数组进行枚举,取到的第一组,肯定是字典序最小的。
#include <iostream>
#include <algorithm>
#include <string.h>
#include <stdio.h>
#include <math.h>
#include <queue>
#define LL long long
using namespace std;
#define F(x) ((x) / 3 + ((x) % 3 == 1 ? 0 : tb))
#define G(x) ((x) < tb ? (x) * 3 + 1 :((x) - tb) * 3 + 2)
const int MAXN = 400010;
int wa[MAXN],wb[MAXN],ws[MAXN],wv[MAXN],wsd[MAXN],r[MAXN],sa[MAXN];
int c0(int *r,int a,int b)
{return r[a] == r[b] && r[a + 1] == r[b + 1] && r[a + 2] == r[b + 2];}
int c12(int k,int *r,int a,int b)
{if(k == 2) return r[a] < r[b] || r[a] == r[b] && c12(1,r,a + 1,b + 1);
else return r[a] < r[b] || r[a] == r[b] && wv[a + 1]< wv[b + 1];}
void sort(int *r,int *a,int *b,int n,int m)
{
int i;
for(i = 0 ; i < n ; i++) wv[i] = r[a[i]];
for(i = 0 ; i < m ; i++) wsd[i] = 0;
for(i = 0 ; i < n ; i++) wsd[wv[i]]++;
for(i = 1 ; i < m ; i++) wsd[i] += wsd[i - 1];
for(i = n - 1 ; i >= 0 ; i--) b[--wsd[wv[i]]] = a[i];
}
void dc3(int *r,int *sa,int n,int m)
{
int i,j,*rn = r + n ,*san = sa + n,ta = 0,tb = (n + 1) / 3,tbc = 0,p;
r[n] = r[n + 1] = 0;
for(i = 0 ; i < n ; i++) if(i % 3 != 0) wa[tbc++] = i;
sort(r + 2,wa,wb,tbc,m);
sort(r + 1,wb,wa,tbc,m);
sort(r,wa,wb,tbc,m);
for(p = 1,rn[F(wb[0])] = 0,i = 1 ; i < tbc ; i++)
rn[F(wb[i])] = c0(r,wb[i - 1],wb[i])?p - 1 : p++;
if(p < tbc) dc3(rn,san,tbc,p);
else for(i = 0 ; i < tbc ; i++) san[rn[i]] = i;
for(i = 0 ;i < tbc ; i++) if(san[i] < tb) wb[ta++] = san[i] * 3;
if(n % 3 == 1) wb[ta++] = n - 1;
sort(r,wb,wa,ta,m);
for(i = 0 ; i < tbc ; i++) wv[wb[i] = G(san[i])] = i;
for(i = 0,j = 0,p = 0 ; i < ta && j < tbc ; p++)
sa[p]=c12(wb[j] % 3,r,wa[i],wb[j]) ? wa[i++] : wb[j++];
for(;i < ta ; p++) sa[p] = wa[i++];
for(;j < tbc ; p++) sa[p] = wb[j++];
}
int Rank[MAXN],height[MAXN];
void calheight(int *r,int *sa,int n)
{
int i,j,k = 0;
for(i = 1 ; i <= n ; i++) Rank[sa[i]] = i;
for(i = 0 ; i < n ; height[Rank[i++]] = k)
for(k ? k--:0,j = sa[Rank[i] - 1] ;r[i + k]==r[j + k];k++);
}
int dp[MAXN][20];
void init_RMQ(int n){
for(int i = 1; i <= n; ++i){
dp[i][0] = height[i];
}
for(int j = 1; (1<<j) <= n; ++j){
for(int i = 1; i+(1<<j)-1 <= n; ++i){
dp[i][j] = min(dp[i][j-1],dp[i+(1<<(j-1))][j-1]);
}
}
}
int query_RMQ(int s,int e){
s = Rank[s],e = Rank[e];
if(s > e) swap(s,e);
s++;
int k = log((e-s+1)*1.0)/log(2.0);
return min(dp[s][k],dp[e-(1<<k)+1][k]);
}
char str[MAXN];
int a[MAXN];
int ans[MAXN];
int main(){
int t = 0;
while(~scanf("%s",str)){
if(!strcmp(str,"#")) break;
int n = strlen(str);
for(int i = 0; i < n; ++i){
a[i] = str[i];
}
a[n] = 0;
dc3(a,sa,n+1,257);
calheight(a,sa,n);
init_RMQ(n);
int top = 0;
int maxn = -1;
for(int l = 1; l <= n-1; ++l){
for(int i = 0; i+l < n; i += l){
int k = query_RMQ(i,i+l);
int m = k/l+1;
int t = l-k%l;
t = i-t;
if(t >= 0 && k%l){
if(query_RMQ(t,t+l) >= k) m++;
}
if(m > maxn){
top = l;
maxn = m;
}
}
}
int start,end;
for(int i = 1; i <= n; ++i){
if(query_RMQ(sa[i],sa[i]+top) >= (maxn-1)*top){
start = sa[i];
end = top*maxn;
break;
}
}
printf("Case %d: ",++t);
for(int i = 0; i < end; ++i){
printf("%c",str[start+i]);
}
putchar('\n');
}
return 0;
}