http://poj.org/problem?id=3693
题目要求完美求出重复次数最多的连续重复子串,首先我们不知道如果重复次数最多的子串的长度是多少,其次我们只有知道了长度才可以知道重复的次数和起始位置……可见首先要确定的是长度!
那么我们可以先从1开始枚举长度L,从1枚举到len/2 len代表字符串总长度。那么我们可以知道假设字符串为st 那么 st[0] st[L] st[2*L] ….st[kL] 中肯定有两个连续的出现在字符串中,那么我们开枚举两个连续的之后从这两个字符前后开始匹配,看最远匹配多远
即以st[i*L],st[i*L+L]前后匹配,这里是通过查询suffix(i*L),suffix(i*L+L)的最长公共前缀
通过rank值能找到 i*L,与 i*L+L 的排名,我们要查询的是这段区间的height的最小值,通过RMQ预处理
(这里是为了这段排名区间内的最大公共子串即height最小值),我们可以通过 st算法预处理一次达到查询为0(1)的复杂度,设LCP长度为M, 则答案显然为M / L + 1(即出现了M/L+1次), 但这只是以i*L 和i*L+L为起点的情况, 不过有一点是可以确定的。
如果目标子串包含了 i*L和i*L+L。那么 i*L一定是和i*L+L匹配的。因为目标串中p一定和p+L匹配。这样才能满足子串长度为L。先在要解决的就是起点不在这两个位置上怎么办了。
得到M/L+1我们可以试着把答案变大。如果M%L!=0我们可以把长度补齐到L的整数倍。即在前面增加(L-M%L)的字符.看能不能使答案变大。为什么这样做是可以的呢?因为我们要使啊、答案变大往后扩展肯定不行了。因为后面已经不匹配了。但是我们为什么扩展 (L-M%L)这么多就行了呢。比这个小肯定是不行的。因为还是没到L的整数倍。比这个多能行的话。去这个值一定能行。因为p是和p+L匹配的。既然取得比这个多。大不了往右平移几个还是能使 M%L得到匹配。那为什么只扩展一个长度L。不扩展多个呢。因为你是枚举每个i*L 和i*L+l。你扩展2个或两个以上就是前面的 i*L和i*L+l的情况了。这一步完成后我们只能得到度数最大长度可能的取值。剩下的工作就是找字典序最小了。 通过sa数组进行枚举,取到的第一组,肯定是字典序最小的。
代码如下:
#include <stdio.h>
#include <algorithm>
#include <string.h>
#include <cmath>
#include <iostream>
#define maxs 2000010
#define MME(i,j) memset(i,j,sizeof(i))
using namespace std;
int dp[maxs][33];
int wa[maxs],wb[maxs],wv[maxs],sa[maxs],wd[maxs];
int ranks[maxs],height[maxs],s[maxs];
char str[maxs];
bool cmp(int *r,int a,int b,int k)
{
return r[a]==r[b]&&r[a+k]==r[b+k];
}
void getsa(int *r,int n,int m)
{
int i,j,p,*x=wa,*y=wb;
for(i=0;i<m;i++) wd[i]=0;
for(i=0;i<n;i++) wd[x[i]=r[i]]++;
for(i=1;i<m;i++) wd[i]+=wd[i-1];
for(i=n-1;i>=0;i--) sa[--wd[x[i]]]=i;
for(j=1,p=1;p<n;j*=2,m=p)
{
for(p=0,i=n-j;i<n;i++) y[p++]=i;
for(i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j;
for(i=0;i<n;i++) wv[i]=x[y[i]];
for(i=0;i<m;i++) wd[i]=0;
for(i=0;i<n;i++) wd[wv[i]]++;
for(i=1;i<m;i++) wd[i]+=wd[i-1];
for(i=n-1;i>=0;i--) sa[--wd[wv[i]]]=y[i];
for(swap(x,y),x[sa[0]]=0,p=1,i=1;i<n;i++)
x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
}
}
void getheight(int *r,int n)
{
int i,j,k=0;
for(i=1;i<=n;i++) ranks[sa[i]]=i;
for(i=0;i<n;i++){
if(k)
k--;
else k=0;
j=sa[ranks[i]-1];
while(r[i+k]==r[j+k])
k++;
height[ranks[i]]=k;
}
}
//以上求 sa ,height
void rmq_init(int *a,int n){
for(int i=1;i<=n;i++) dp[i][0]=a[i];
for(int j=1;(1<<j)<=n;j++)
for(int i=1;i+(1<<j)-1<=n;i++)
dp[i][j]=min(dp[i][j-1],dp[i+(1<<(j-1))][j-1]);
}
//ST 预处理
int rmq_ask(int ll,int rr)
{
int k;
ll=ranks[ll];
rr=ranks[rr]; //注意这里我们要找到这两的排名,之后在这段排名中找到最小的height值
if(ll>rr) swap(ll,rr);
ll++;
k=(int)(log(rr-ll+1.0)/log(2.0));
return min(dp[ll][k],dp[rr-(1<<k)+1][k]);
}
//查询
int main()
{
static int times=1;
while(~scanf("%s",str)&&str[0]!='#')
{
int len=strlen(str);
for(int i=0;i<len;i++)
s[i]=str[i]-'a'+1;
s[len]=0;
getsa(s,len+1,30);
getheight(s,len);
rmq_init(height,len);
int ans=-1,anspos,anslen;
for(int L=1;L<=len/2;L++) // 枚举长度
{
for(int j=0;j<len-L;j+=L)
{
if(str[j]!=str[j+L])//这里一定要相等啊
continue;
int k=rmq_ask(j,j+L);//区间最小值
int tol=k/L+1;//假定出现次数
int temppos=j;//假设的初始位置
int cnt=0,yu=L-k%L;//这里看有多少个能再补一个l的长度
for(int m=j-1;m>j-L&&str[m]==str[m+L]&&m>=0;m--)//从这段区间开始往前找
{
cnt++;
if(cnt==yu)//如果
{
tol++;
temppos=m;
}
else if(ranks[m]<ranks[temppos])//保证了字典序
temppos=m;
}
if(ans<tol)
{
ans=tol;
anspos=temppos;
anslen=tol*L;
}
else if(ans==tol&&ranks[temppos]<ranks[anspos])
{
anspos=temppos;
anslen=tol*L;
}
}
}
printf("Case %d: ",times++);
if(ans==1)
{
char c='z';
for(int i=0;i<len;i++)
if(str[i]<c)
c=str[i];
printf("%c\n",c);
}
else
{
for(int i=anspos;i<anspos+anslen;i++)
{
printf("%c",str[i]);
}
puts("");
}
}
return 0;
}