SPOJ - REPEATS (后缀数组,rmq,lcp 求重复次数最多的连续重复子串)

题目:给定一个字符串,求重复次数最多的连续重复子串。

思路:先穷举长度L,然后求长度为L的子串最多能连续出现几次。首先连续出现1次是肯定可以的,所以这里只考虑至少2次的情况。假设在原字符串中连续出现2次,记这个子字符串为S,那么S肯定包括了字符r[0], r[L], r[L*2],r[L*3], ……中的某相邻的两个。所以只须看字符r[L*i]和r[L*(i+1)]往前和
往后各能匹配到多远,记这个总长度为K,那么这里连续出现了K/L+1次。最后看最大值是多少。如图所示。

 

穷举长度L的时间是n,每次计算的时间是n/L。所以整个做法的时间复杂度是O(n/1+n/2+n/3+……+n/n)=O(nlogn)。

ps:基本思路在罗穗骞的论文里已经说得比较清楚了,而我在这里要提的是论文里比较模糊的部分

要提一提的总共有两点,第一点比较显而易见

“S肯定包括了字符r[0], r[L], r[L*2],r[L*3], ……中的某相邻的两个”

由于当前S是有两个长度为L的连续重复子串拼接而成的,那意味着S[i]和S[i+L](0≤i<L)必定是一样的字符

而这两个字符位置相差L

而字符r[0],r[L],r[L*2],r[L*3],......中相邻两个的位置差均为L

“只须看字符r[L*i]和r[L*(i+1)]往前和往后各能匹配到多远”,对于往后能匹配到多远,这个直接根据最长公共前缀就能很容易得到,即上图中的后缀Suffix(6)和后缀Suffix(9)的最长公共前缀。而对于往前能匹配到多远,我们当然可以一开始就把字符串反过来拼在后面,这样也能根据最长公共前缀来看往前能匹配到多远,但这样效率就比较低了。

其实,当枚举的重复子串长度为i时,我们在枚举r[i*j]和r[i*(j+1)]的过程中,必然可以出现r[i*j]在第一个重复子串里,而r[i*(j+1)]在第二个重复子串里的这种情况,如果此时r[i*j]是第一个重复子串的首字符,这样直接用公共前缀k除以i并向下取整就可以得到最后结果。但如果r[i*j]如果不是首字符,这样算完之后结果就有可能偏小,因为r[i*j]前面可能还有少许字符也能看作是第一个重复子串里的。
于是,我们不妨先算一下,从r[i*j]开始,除匹配了k/i个重复子串,还剩余了几个字符,剩余的自然是k%i个字符。如果说r[i*j]的前面还有i-k%i个字符完成匹配的话,这样就相当于利用多余的字符还可以再匹配出一个重复子串,于是我们只要检查一下从r[i*j-(i-k%i)]和r[i*(j+1)-(i-k%i)]开始是否有i-k%i个字符能够完成匹配即可,也就是说去检查这两个后缀的最长公共前缀是否比i-k%i大即可。
当然如果公共前缀不比i-k%i小,自然就不比i小,因为后面的字符都是已经匹配上的,所以为了方便编写,程序里面就直接去看是否会比i小就可以了。

//#include<bits/stdc++.h>
#include<iostream>
#include<cstdio>
#include<cstring>
#include<algorithm>
using namespace std;
const int maxn=52010;
int t1[maxn],t2[maxn],c[maxn];
bool cmp(int *r,int a,int b,int l)
{
	return r[a]==r[b]&&r[a+l]==r[b+l];
}
void da(int str[],int sa[],int ra[],int height[],int n,int m)
{
	n++;
	int p,*x=t1,*y=t2;
	for(int i=0;i<m;i++) c[i]=0;
	for(int i=0;i<n;i++) c[x[i]=str[i]]++;
	for(int i=1;i<m;i++) c[i]+=c[i-1];
	for(int i=n-1;i>=0;i--) sa[--c[x[i]]]=i;
	for(int j=1;j<=n;j<<=1)
	{
		p=0;
		for(int i=n-j;i<n;i++) y[p++]=i;
		for(int i=0;i<n;i++)
		if(sa[i]>=j)  y[p++]=sa[i]-j;
		for(int i=0;i<m;i++) c[i]=0;
		for(int i=0;i<n;i++) c[x[y[i]]]++;
		for(int i=1;i<m;i++) c[i]+=c[i-1];
		for(int i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i];
		swap(x,y);
		p=1;x[sa[0]]=0;
		for(int i=1;i<n;i++)
		x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
		if(p>=n) break;
		m=p;
	}
	int k=0;
	n--;
	for(int i=0;i<=n;i++) ra[sa[i]]=i;
	for(int i=0;i<n;i++)
	{
		if(k) k--;
		int j=sa[ra[i]-1];
		while(str[i+k]==str[j+k])k++;
		height[ra[i]]=k;
	}
}

int m,n,k,t;
int ra[maxn],height[maxn],str[maxn],sa[maxn];

int mm[maxn],best[20][maxn];
void initRMQ(int n)
{
    mm[0]=-1;
    for(int i=1;i<=n;i++)
        mm[i]=((i&(i-1))==0)?mm[i-1]+1:mm[i-1];
    for(int i=1;i<=n;i++)best[0][i]=height[i];
    for(int i=1;i<=mm[n];i++)
        for(int j=1;j+(1<<i)-1<=n;j++)
        {
            int a=best[i-1][j];
            int b=best[i-1][j+(1<<(i-1))];
            if(a<b) best[i][j]=a;
            else best[i][j]=b;
        }
}
int askRMQ(int a,int b)
{
    int t=mm[b-a+1];
    b-=(1<<t)-1;
    a=best[t][a];b=best[t][b];
    return a<b?a:b;
}
int lcp(int a,int b)//求以a,b开始的子串的最长公共前缀
{
    a=ra[a];b=ra[b];
    if(a>b) swap(a,b);
    return askRMQ(a+1,b);
}

char s[maxn];
int main()
{
   /// freopen("in.txt","r",stdin);
    int t;
    scanf("%d",&t);
    while(t--)
    {
        scanf("%d",&n);
        for(int i=0;i<n;i++)
        {
            getchar();
            scanf("%c",&s[i]);
        }
        for(int i=0;i<n;i++)
        str[i]=s[i]-'a'+1;
        str[n]=0;
        da(str,sa,ra,height,n,5);
/*
        for(int i=1; i<=n; ++i)
		{
		      printf("%d:\t",i);
		      for(int j=i-1; j<n; ++j)
		            printf("%d",str[j]);
		      puts("");
		}
		puts("");
		puts("-------------After sort---------------");
		for(int i=1; i<=n; ++i)
		{
		      printf("sa[%2d ] = %2d\t",i,sa[i]);
		      for(int j=sa[i]; j<n; ++j)//for(int j=sa[i]; j<n; ++j)???
		            printf("%d",str[j]);
		      puts("");
		}
		puts("");
		puts("---------------Height-----------------");
		for(int i=1; i<=n; ++i)
		      printf("height[%2d ]=%2d \n",i,height[i]);
		puts("");
		puts("----------------ra------------------");
		for(int i=1; i<=n; ++i)
		      printf("ra[%2d ] = %2d\n",i,ra[i]);
		puts("------------------END-----------------");

*/
        initRMQ(n);
        int ans=1;
        for(int i=1;i<=n;i++)
        {
            for(int j=0;j+i<n;j+=i)
            {
                int len=lcp(j,j+i);
                int k=j-(i-len%i);
                int sum=len/i+1;

                if(k>=0&&lcp(k,k+i)>=i)
                    sum++;
                ans=max(ans,sum);
            }
        }
        printf("%d\n",ans);
    }
	return 0;
}

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值