最长连续重复子串问题,一般是问重复的最大数,更强的就是要求输出字典序最小的一个答案。
对于这种问题,我们没有什么好办,只能枚举重复子串的长度L,在纸上写些数据会发现,重复子串会覆盖s[0],s[L],s[2*L],...,S[i*L]其中相邻的两个。这样求s[i*L]和s[(i+1)*L]的最长公共前缀为k,通过测试数据会发现这样的规律,重复次数r=k/L+1;这样做只能说肯定能找到对应的连续重复子串的长度和重复次数,但是不一定能找出重复最多的联系子串,原因可通过在纸上模拟L的枚举过程,会发现其实如果先前延伸某个长度在继续执行s[t]和s[t+L]的最长公共子串算法,如果得到的结果比之前的更优,那么之前的k要加1。那么问题来了,对于这样求最长公共子串复杂度最坏是O(n),这样算下总的复杂度O(n*n*logn)显然太慢。其实可以通过rmq问题对s[t]和s[t+L]最长公共子串进行优化。预处理好,然后就可以通过rmq O(1)的时间复杂度来找到答案。
对于rmq问题,特地去网上找了下,原来就是一种dp而已,相当于利用区间dp来求解问题。状态:dp[i][j]表示区间[i,i+2^j-1]这个区间的最有解。这样状态方程就可以出来了:
dp[i][j]=min(dp[i][j-1],dp[i+(1<<(j-1))][j-1]);仔细思考下这个方程。
询问时通过这样找到答案:k=log2(j-i+1), ans=min(dp[i][k],dp[j-(1<<k)][k]);i,j分别是rank值,这个dp方程是以rank的大小顺序进行转移的。可惜悲伤的是自己手残把dp[j-(1<<k)][k]写成了dp[i-(1<<k)][k];搞了一天,- -!各种找错,瞬间怀疑自己能力了。哎,说多都是泪。
奉上两题:poj 3693(好题) spoj(687)
题解:
poj 3697:
#include<iostream>
#include<math.h>
#include<stdio.h>
#include<algorithm>
#include<string.h>
#include<vector>
#include<queue>
#include<map>
#include<set>
using namespace std;
#define B(x) (1<<(x))
typedef long long ll;
const int oo=0x3f3f3f3f;
const ll OO=1LL<<61;
const int MOD=10007;
const int maxn=100005;
int rank[maxn],SA[maxn],height[maxn];
int t1[maxn],t2[maxn],t3[maxn],t4[maxn];
char str[maxn];
int Log2[maxn];
int ans[maxn];
void Swap(int*& x,int*& y){
int *temp=x;
x=y;
y=temp;
}
bool cmp(int t[],int a,int b,int l){
return t[a]==t[b]&&t[a+l]==t[b+l];
}
void build_SA(char s[],int len,int up){
int *k1=t1,*k2=t2,*r=t3,*cnt=t4;
for(int i=0;i<up;i++)cnt[i]=0;
for(int i=0;i<len;i++)cnt[k1[i]=s[i]]++;
for(int i=1;i<up;i++)cnt[i]+=cnt[i-1];
for(int i=len-1;i>=0;i--)SA[--cnt[k1[i]]]=i;
for(int d=1,p=0;p<len;d<<=1,up=p){
p=0;
for(int i=len-d;i<len;i++)k2[p++]=i;
for(int i=0;i<len;i++)if(SA[i]>=d)k2[p++]=SA[i]-d;
for(int i=0;i<len;i++)r[i]=k1[k2[i]];
for(int i=0;i<up;i++)cnt[i]=0;
for(int i=0;i<len;i++)cnt[r[i]]++;
for(int i=1;i<up;i++)cnt[i]+=cnt[i-1];
for(int i=len-1;i>=0;i--)SA[--cnt[r[i]]]=k2[i];
Swap(k1,k2);
k1[SA[0]]=0;
p=1;
for(int i=1;i<len;i++){
k1[SA[i]]= cmp(k2,SA[i-1],SA[i],d) ? p-1 : p++;
}
}
}
void get_height(char s[],int len){
//memset(rank,0,sizeof rank);
for(int i=1;i<=len;i++)rank[SA[i]]=i;
for(int i=0,p=0;i<len;i++){
int j=SA[rank[i]-1];
while(s[i+p]==s[j+p])p++;
height[rank[i]]=p;
if(p)p--;
}
}
void cmin(int& a,int b){
if(b<a) a=b;
}
int dp[maxn][20];
void rmq(int n){
int m=Log2[n];
for(int i=1;i<=n;i++)dp[i][0]=height[i];
for(int j=1;j<=m;j++){
for(int i=n;i;i--){
dp[i][j]=dp[i][j-1];
if(i+B(j-1)<=n){
cmin(dp[i][j],dp[i+B(j-1)][j-1]);
}
}
}
}
int query(int l,int r){
int i=rank[l],j=rank[r];
if(i>j){ int temp=i; i=j; j=temp; }
i++;
int k=Log2[j-i+1];
return min(dp[i][k],dp[j-B(k)+1][k]);
}
void get_log()
{
Log2[0]=-1;
for(int i=1;i<maxn;i++){
Log2[i]=(i&(i-1))?Log2[i-1]:(Log2[i-1]+1);
}
}
int main(){
get_log();
int cas=1;
while(scanf("%s",str)!=EOF){
if(str[0]=='#')break;
int len=strlen(str);
build_SA(str,len+1,200);
get_height(str,len);
rmq(len);
int mx=0,tol=0;
for(int l=1;l<len;l++){
for(int i=0;i+l<len;i+=l){
int r=query(i,i+l);///最长公共前缀长度
int k=r/l+1;///循环次数
int t=i-(l-r%l);
if(t>=0&&r%l&&query(t,t+l)>=r) k++;
if(k>mx){
mx=k;
tol=0;
ans[tol++]=l;
}else if(k==mx){
ans[tol++]=l;
}
}
}
int L=-1,s=0;
for(int i=1;i<=len&&L==-1;i++){
for(int j=0;j<tol;j++){
int l=ans[j];
if(query(SA[i],SA[i]+l)>=(mx-1)*l){
L=l;
s=SA[i];
break;
}
}
}
if(L==-1){
printf("Case %d: %c\n",cas++,str[SA[1]]);
continue;
}
printf("Case %d: ",cas++);
for(int i=s;i<s+L*mx;i++)printf("%c",str[i]);
puts("");
}
return 0;
}
/**
baccdbaccdbacbdbacbd
xbcabcab
edbea
abcabcabcab
accdaccaccddcacacaacad
babbabaabaabaabab
abaabaabaaba
ccabababc
daabbccaa
bcbcbaba
pedabacewqpz
ababaaa
baccdbaccdbacbdbacbd
asdfghj
asasasaaa
asasasaaaa
bbbcccaa
Case 1: accdbaccdb
Case 2: bcabca
Case 3: a
Case 4: abcabcabc
Case 5: cacaca
Case 6: abaabaabaaba
Case 7: abaabaabaaba
Case 8: ababab
Case 9: aa
Case 10: baba
Case 11: a
Case 12: aaa
Case 13: accdbaccdb
Case 14: a
Case 15: aaa
Case 16: aaaa
Case 17: bbb
*/
spoj 687:
#include<iostream>
#include<math.h>
#include<stdio.h>
#include<algorithm>
#include<string.h>
using namespace std;
#define B(x) (1<<(x))
typedef long long ll;
const int oo=0x3f3f3f3f;
const ll OO=1LL<<61;
const int MOD=10007;
const int maxn=50005;
int rank[maxn],SA[maxn],height[maxn];
int t1[maxn],t2[maxn],t3[maxn],t4[maxn];
char str[maxn];
int Log2[maxn];
void Swap(int*& x,int*& y){
int *temp=x;
x=y;
y=temp;
}
bool cmp(int t[],int a,int b,int l){
return t[a]==t[b]&&t[a+l]==t[b+l];
}
void build_SA(char s[],int len,int up){
int *k1=t1,*k2=t2,*r=t3,*cnt=t4;
for(int i=0;i<up;i++)cnt[i]=0;
for(int i=0;i<len;i++)cnt[k1[i]=s[i]]++;
for(int i=1;i<up;i++)cnt[i]+=cnt[i-1];
for(int i=len-1;i>=0;i--)SA[--cnt[k1[i]]]=i;
for(int d=1,p=1;p<len;d<<=1,up=p){
p=0;
for(int i=len-d;i<len;i++)k2[p++]=i;
for(int i=0;i<len;i++)if(SA[i]>=d)k2[p++]=SA[i]-d;
for(int i=0;i<len;i++)r[i]=k1[k2[i]];
for(int i=0;i<up;i++)cnt[i]=0;
for(int i=0;i<len;i++)cnt[r[i]]++;
for(int i=1;i<up;i++)cnt[i]+=cnt[i-1];
for(int i=len-1;i>=0;i--)SA[--cnt[r[i]]]=k2[i];
Swap(k1,k2);
k1[SA[0]]=0;
p=1;
for(int i=1;i<len;i++){
k1[SA[i]]= cmp(k2,SA[i-1],SA[i],d) ? p-1 : p++;
}
}
}
void get_height(char s[],int len){
for(int i=1;i<=len;i++)rank[SA[i]]=i;
for(int i=0,p=0;i<len;i++){
int j=SA[rank[i]-1];
while(s[i+p]==s[j+p])p++;
height[rank[i]]=p;
if(p)p--;
}
}
int dp[maxn][20];
void rmq(int n){
int m=Log2[n];
for(int i=1;i<=n;i++)dp[i][0]=height[i];
for(int j=1;j<=m;j++){
for(int i=1;i+B(j)-1<=n;i++){
dp[i][j]=min(dp[i][j-1],dp[i+B(j-1)][j-1]);
}
}
}
int query(int l,int r){
int i=rank[l],j=rank[r];
if(i>j){ int temp=i; i=j; j=temp; }
i++;
int k=Log2[j-i+1];
return min(dp[i][k],dp[j-B(k)+1][k]);
}
void get_log()
{
Log2[0]=-1;
for(int i=1;i<maxn;i++){
Log2[i]=(i&(i-1))?Log2[i-1]:(Log2[i-1]+1);
}
}
int main(){
get_log();
int T,len;
scanf("%d",&T);
while(T--){
scanf("%d",&len);
for(int i=0;i<len;i++){
getchar();
scanf("%c",&str[i]);
}
str[len]='\0';
build_SA(str,len+1,128);
get_height(str,len);
rmq(len);
int ans=0;
for(int l=1;l<len;l++){
for(int i=0;i+l<len;i+=l){
int r=query(i,i+l);
int k=r/l+1;
int t=i-(l-r%l);
if(t>=0&&r%l&&query(t,t+l)>=r) k++;
if(k>ans) ans=k;
}
}
printf("%d\n",ans);
}
return 0;
}
/**
*/