POJ 3693 Maximum repetition substring 后缀数组与区间最值的完美结合

http://poj.org/problem?id=3693

题目要求完美求出重复次数最多的连续重复子串,首先我们不知道如果重复次数最多的子串的长度是多少,其次我们只有知道了长度才可以知道重复的次数和起始位置……可见首先要确定的是长度!
那么我们可以先从1开始枚举长度L,从1枚举到len/2 len代表字符串总长度。那么我们可以知道假设字符串为st 那么 st[0] st[L] st[2*L] ….st[kL] 中肯定有两个连续的出现在字符串中,那么我们开枚举两个连续的之后从这两个字符前后开始匹配,看最远匹配多远

即以st[i*L],st[i*L+L]前后匹配,这里是通过查询suffix(i*L),suffix(i*L+L)的最长公共前缀
通过rank值能找到 i*L,与 i*L+L 的排名,我们要查询的是这段区间的height的最小值,通过RMQ预处理
(这里是为了这段排名区间内的最大公共子串即height最小值),我们可以通过 st算法预处理一次达到查询为0(1)的复杂度,设LCP长度为M, 则答案显然为M / L + 1(即出现了M/L+1次), 但这只是以i*L 和i*L+L为起点的情况, 不过有一点是可以确定的。
如果目标子串包含了 i*L和i*L+L。那么 i*L一定是和i*L+L匹配的。因为目标串中p一定和p+L匹配。这样才能满足子串长度为L。先在要解决的就是起点不在这两个位置上怎么办了。
得到M/L+1我们可以试着把答案变大。如果M%L!=0我们可以把长度补齐到L的整数倍。即在前面增加(L-M%L)的字符.看能不能使答案变大。为什么这样做是可以的呢?因为我们要使啊、答案变大往后扩展肯定不行了。因为后面已经不匹配了。但是我们为什么扩展 (L-M%L)这么多就行了呢。比这个小肯定是不行的。因为还是没到L的整数倍。比这个多能行的话。去这个值一定能行。因为p是和p+L匹配的。既然取得比这个多。大不了往右平移几个还是能使 M%L得到匹配。那为什么只扩展一个长度L。不扩展多个呢。因为你是枚举每个i*L 和i*L+l。你扩展2个或两个以上就是前面的 i*L和i*L+l的情况了。这一步完成后我们只能得到度数最大长度可能的取值。剩下的工作就是找字典序最小了。 通过sa数组进行枚举,取到的第一组,肯定是字典序最小的。

代码如下:

#include <stdio.h>
#include <algorithm>
#include <string.h>
#include <cmath>
#include <iostream>
#define maxs 2000010
#define MME(i,j) memset(i,j,sizeof(i))
using namespace std;
int dp[maxs][33];
int wa[maxs],wb[maxs],wv[maxs],sa[maxs],wd[maxs];
int ranks[maxs],height[maxs],s[maxs];
char str[maxs];

bool cmp(int *r,int a,int b,int k)
{
    return r[a]==r[b]&&r[a+k]==r[b+k];
}

void getsa(int *r,int n,int m)
{
    int i,j,p,*x=wa,*y=wb;
    for(i=0;i<m;i++) wd[i]=0;
    for(i=0;i<n;i++) wd[x[i]=r[i]]++;
    for(i=1;i<m;i++) wd[i]+=wd[i-1];
    for(i=n-1;i>=0;i--) sa[--wd[x[i]]]=i;

    for(j=1,p=1;p<n;j*=2,m=p)
    {
        for(p=0,i=n-j;i<n;i++) y[p++]=i;
        for(i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j;
        for(i=0;i<n;i++) wv[i]=x[y[i]];
        for(i=0;i<m;i++) wd[i]=0;
        for(i=0;i<n;i++) wd[wv[i]]++;
        for(i=1;i<m;i++) wd[i]+=wd[i-1];
        for(i=n-1;i>=0;i--) sa[--wd[wv[i]]]=y[i];
        for(swap(x,y),x[sa[0]]=0,p=1,i=1;i<n;i++)
            x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
    }
}

void getheight(int *r,int n)
{
    int i,j,k=0;
    for(i=1;i<=n;i++) ranks[sa[i]]=i;
    for(i=0;i<n;i++){
        if(k)
            k--;
        else k=0;
        j=sa[ranks[i]-1];
        while(r[i+k]==r[j+k])
            k++;
        height[ranks[i]]=k;
    }
}
//以上求 sa ,height
void rmq_init(int *a,int n){

    for(int i=1;i<=n;i++) dp[i][0]=a[i];
    for(int j=1;(1<<j)<=n;j++)
        for(int i=1;i+(1<<j)-1<=n;i++)
            dp[i][j]=min(dp[i][j-1],dp[i+(1<<(j-1))][j-1]);
}
//ST 预处理
int rmq_ask(int ll,int rr)
{
    int k;
    ll=ranks[ll];
    rr=ranks[rr]; //注意这里我们要找到这两的排名,之后在这段排名中找到最小的height值
    if(ll>rr) swap(ll,rr);
    ll++; 
    k=(int)(log(rr-ll+1.0)/log(2.0));
    return min(dp[ll][k],dp[rr-(1<<k)+1][k]);
}
//查询
int main()
{
    static int times=1;
    while(~scanf("%s",str)&&str[0]!='#')
    {
        int len=strlen(str);
        for(int i=0;i<len;i++)
            s[i]=str[i]-'a'+1;
        s[len]=0;
        getsa(s,len+1,30);
        getheight(s,len);
        rmq_init(height,len);
        int ans=-1,anspos,anslen;
        for(int L=1;L<=len/2;L++)  // 枚举长度
        {
            for(int j=0;j<len-L;j+=L)
            {
                if(str[j]!=str[j+L])//这里一定要相等啊
                    continue;

                int k=rmq_ask(j,j+L);//区间最小值
                int tol=k/L+1;//假定出现次数
                int temppos=j;//假设的初始位置
                int cnt=0,yu=L-k%L;//这里看有多少个能再补一个l的长度
                for(int m=j-1;m>j-L&&str[m]==str[m+L]&&m>=0;m--)//从这段区间开始往前找
                {
                    cnt++;
                    if(cnt==yu)//如果
                    {
                        tol++;
                        temppos=m;
                    }
                    else if(ranks[m]<ranks[temppos])//保证了字典序
                        temppos=m;
                }
                if(ans<tol)
                {
                    ans=tol;
                    anspos=temppos;
                    anslen=tol*L;
                }
                else if(ans==tol&&ranks[temppos]<ranks[anspos])
                {
                    anspos=temppos;
                    anslen=tol*L;
                }
            }
        }
        printf("Case %d: ",times++);
        if(ans==1)
        {
            char c='z';
            for(int i=0;i<len;i++)
                if(str[i]<c)
                    c=str[i];

            printf("%c\n",c);
        }
        else
        {
            for(int i=anspos;i<anspos+anslen;i++)
            {
                printf("%c",str[i]);
            }
            puts("");
        }
    }
    return 0;
}
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值