bzoj3277&&bzoj3473 串(SA+二分+lcp)

37 篇文章 0 订阅

首先老套路,我们把所有串接在一起,用分隔符隔开,做SA,求出h数组,并用st表求lcp。然后分析题目,我们对于每个串分别统计答案。假定我们正在做第i个串,在总串中从sta开始,到ed结束。则我们要求的就是每个后缀a[sta…ed],a[sta+1…ed]…a[ed]对答案的贡献和。假设我们在求a[j…ed]这个后缀的贡献。则他的贡献就是有几个前缀出现在k个及以上不同串中,显然如果a[j..j+len-1]满足且len最大,则对答案的贡献为len。我们只需求出这个最大的len。考虑到如果a[j-1…ed]对答案的贡献为len,则a[j…ed]对答案的贡献至少为len-1,我们可以像求h数组那样来求这个贡献。
还需要实现的是如何判断a[j…j+len-1](以下记作串t)是否出现在k个及以上不同的串中。首先根据h数组我们可以求出最大的区间[l..r]满足这r-l+1个后缀均包含串t。我们统计这个区间内是否有k个及以上的不同串。(朴素的程序见后面)
优化一下,可以用二分查找这个[l…r]的区间。
然后是如何快速的判断这个区间内是否有k个及以上的不同串。我们预处理一个L数组,表示L[i]…i区间内有k个及以上的不同串且L[i]最大。(也就是使以i为右端点的区间满足条件的最小区间)显然这是可以一遍O(n)扫描完成的。(用一个指针p表示左端点的移动)。则只需看[l…r]区间是否包含了[L[r]…r]区间即可快速判断。至此,此题解决。

SA正解版

#include <cstdio>
#include <cstring>
#include <algorithm>
#define ll long long
#define N 200010
int n=0,m=30,nn,kk,a[N],len[N>>1],rank[N<<1],rank1[N],sa[N],h[N],tmp[N],count[N];
int st[N][20],Log[N],tot=0,cnt[N>>1],L[N],bel[N];
char s[N>>1];
inline int min(int x,int y){return x<y?x:y;}
inline int lcp(int l,int r){
    ++l;
    int t=Log[r-l+1];
    return min(st[l][t],st[r-(1<<t)+1][t]);
}
bool check(int x,int length){//串sa[x]...sa[x]+length-1是否满足题意 
    int xl,xr;//二分找到最大的[xl...xr]区间,使其均包含串sa[x]...sa[x]+length-1
    if(h[x]<length) xl=x;
    else{
        int l=1,r=x-1;
        while(l<=r){
            int mid=l+r>>1;
            if(lcp(mid,x)>=length) r=mid-1;else l=mid+1;
        }xl=l;
    }
    if(h[x+1]<length) xr=x;
    else{
        int l=x+1,r=n;
        while(l<=r){
            int mid=l+r>>1;
            if(lcp(x,mid)>=length) l=mid+1;else r=mid-1;
        }xr=r;
    }
    return L[xr]>=xl;//第L[xr]到xr包含了k个及以上不同字串,看xl...xr能否包含 
}
int main(){
//  freopen("a.in","r",stdin);
    scanf("%d%d",&nn,&kk);
    for(int i=1;i<=nn;++i){
        scanf("%s",s+1);len[i]=strlen(s+1);
        for(int j=1;j<=len[i];++j) a[++n]=s[j]-'a'+1,bel[n]=i;
        a[++n]=++m;
    }Log[0]=-1;
    for(int i=1;i<=n;++i) Log[i]=Log[i>>1]+1;
    for(int i=1;i<=m;++i) count[i]=0;
    for(int i=1;i<=n;++i) count[a[i]]=1;
    for(int i=1;i<=m;++i) count[i]+=count[i-1];
    for(int i=n;i>=1;--i) rank[i]=count[a[i]];
    int k=0;
    for(int p=1;k!=n;p<<=1,m=k){
        for(int i=1;i<=m;++i) count[i]=0;
        for(int i=1;i<=n;++i) count[rank[i+p]]++;
        for(int i=1;i<=m;++i) count[i]+=count[i-1];
        for(int i=n;i>=1;--i) tmp[count[rank[i+p]]--]=i;
        for(int i=1;i<=m;++i) count[i]=0;
        for(int i=1;i<=n;++i) count[rank[tmp[i]]]++;
        for(int i=1;i<=m;++i) count[i]+=count[i-1];
        for(int i=n;i>=1;--i) sa[count[rank[tmp[i]]]--]=tmp[i];
        memcpy(rank1,rank,sizeof(rank1));
        rank[sa[1]]=k=1;
        for(int i=2;i<=n;++i){
            if(rank1[sa[i]]!=rank1[sa[i-1]]||rank1[sa[i]+p]!=rank1[sa[i-1]+p]) ++k;
            rank[sa[i]]=k;
        }
    }k=0;
    for(int i=1;i<=n;++i){
        if(rank[i]==1){h[1]=0;continue;}
        if(i==1||h[rank[i-1]]<=1) k=0;
        if(k) --k;
        while(a[i+k]==a[sa[rank[i]-1]+k]) ++k;
        h[rank[i]]=k;
    }
    for(int i=1;i<=n;++i) st[i][0]=h[i];
    for(int i=1;i<=Log[n];++i)
        for(int j=1;j<=n;++j)
            if(j+(1<<i-1)<=n) st[j][i]=min(st[j][i-1],st[j+(1<<i-1)][i-1]);
    for(int i=1,p=1;i<=n;++i){//按排名从小到大扫 
        if(!bel[sa[i]]) break;
        if(cnt[bel[sa[i]]]==0) tot++;
        cnt[bel[sa[i]]]++;
        while(tot>kk||tot==kk&&cnt[bel[sa[p]]]>1){//求L[i]的最右值p 
            --cnt[bel[sa[p]]];if(cnt[bel[sa[p++]]]==0) --tot;
        }
        if(tot>=kk) L[i]=p;
        else L[i]=-1;
    }
    for(int i=1,sta=1;i<=nn;sta+=len[i++]+1){
        ll ans=0;int k=0;
        for(int j=sta;j<=sta+len[i]-1;++j){//统计第i个串的每个后缀对答案的贡献 
            if(k) --k;
            while(j+k+1-1<=sta+len[i]-1&&check(rank[j],k+1)) ++k;
            ans+=k;
        }
        printf("%lld",ans);if(i!=nn) printf(" ");
    }
    return 0;
}

不用二分的话复杂度就是玄学了,很轻易的就会被数据卡。。。但是3473数据真是弱。。。暴力跑了368ms,正解跑了1400ms,还给了20s的时限???
反观3277 数据就很靠谱了,暴力TLE了。。。而正解跑了2496ms。(毕竟正解SAM。。。捂脸)

暴力版

#include <cstdio>
#include <cstring>
#include <algorithm>
#define ll long long
#define N 200010
int n=0,m=30,nn,kk,a[N],len[N>>1],rank[N<<1],rank1[N],sa[N],h[N],tmp[N],count[N];
int st[N][20],Log[N],tot=0,cnt[N>>1],L[N],bel[N];
char s[N>>1];
inline int min(int x,int y){return x<y?x:y;}
bool check(int x,int length){//串sa[x]...sa[x]+length-1是否满足题意 
    int l=x,r=x+1;
    while(h[l]>=length) --l;
    while(h[r]>=length) ++r;--r;
    return L[r]>=l;//第L[xr]到xr包含了k个及以上不同字串,看xl...xr能否包含 
}
int main(){
//  freopen("a.in","r",stdin);
    scanf("%d%d",&nn,&kk);
    for(int i=1;i<=nn;++i){
        scanf("%s",s+1);len[i]=strlen(s+1);
        for(int j=1;j<=len[i];++j) a[++n]=s[j]-'a'+1,bel[n]=i;
        a[++n]=++m;
    }Log[0]=-1;
    for(int i=1;i<=n;++i) Log[i]=Log[i>>1]+1;
    for(int i=1;i<=m;++i) count[i]=0;
    for(int i=1;i<=n;++i) count[a[i]]=1;
    for(int i=1;i<=m;++i) count[i]+=count[i-1];
    for(int i=n;i>=1;--i) rank[i]=count[a[i]];
    int k=0;
    for(int p=1;k!=n;p<<=1,m=k){
        for(int i=1;i<=m;++i) count[i]=0;
        for(int i=1;i<=n;++i) count[rank[i+p]]++;
        for(int i=1;i<=m;++i) count[i]+=count[i-1];
        for(int i=n;i>=1;--i) tmp[count[rank[i+p]]--]=i;
        for(int i=1;i<=m;++i) count[i]=0;
        for(int i=1;i<=n;++i) count[rank[tmp[i]]]++;
        for(int i=1;i<=m;++i) count[i]+=count[i-1];
        for(int i=n;i>=1;--i) sa[count[rank[tmp[i]]]--]=tmp[i];
        memcpy(rank1,rank,sizeof(rank1));
        rank[sa[1]]=k=1;
        for(int i=2;i<=n;++i){
            if(rank1[sa[i]]!=rank1[sa[i-1]]||rank1[sa[i]+p]!=rank1[sa[i-1]+p]) ++k;
            rank[sa[i]]=k;
        }
    }k=0;
    for(int i=1;i<=n;++i){
        if(rank[i]==1){h[1]=0;continue;}
        if(i==1||h[rank[i-1]]<=1) k=0;
        if(k) --k;
        while(a[i+k]==a[sa[rank[i]-1]+k]) ++k;
        h[rank[i]]=k;
    }
    for(int i=1,p=1;i<=n;++i){//按排名从小到大扫 
        if(!bel[sa[i]]) break;
        if(cnt[bel[sa[i]]]==0) tot++;
        cnt[bel[sa[i]]]++;
        while(tot>kk||tot==kk&&cnt[bel[sa[p]]]>1){//求L[i]的最右值p 
            --cnt[bel[sa[p]]];if(cnt[bel[sa[p++]]]==0) --tot;
        }
        if(tot>=kk) L[i]=p;
        else L[i]=-1;
    }
    for(int i=1,sta=1;i<=nn;sta+=len[i++]+1){
        ll ans=0;int k=0;
        for(int j=sta;j<=sta+len[i]-1;++j){//统计第i个串的每个后缀对答案的贡献 
            if(k) --k;
            while(j+k+1-1<=sta+len[i]-1&&check(rank[j],k+1)) ++k;
            ans+=k;
        }
        printf("%lld",ans);if(i!=nn) printf(" ");
    }
    return 0;
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值