【后缀数组】Relevant Phrases of Annihilation SPOJ - PHRASES

题目链接

Relevant Phrases of Annihilation SPOJ - PHRASES

题意

输入m个字符串,求一个最长子串,要求这个子串在每个字符串中都不重叠地出现了至少两次。输出最长子串的长度。

分析

求最大值最小值问题,很容易想到用二分去搜索。
binary() 返回搜索的结果
check(l) 长度为l的子串是否满足要求

简化问题:
求一个字符串中不重叠出现至少两次的子串(长度为k)?
用ri、le分别表示子串在字符串中起始位置的最左和最右位置,如果ri-le大于等于k,那么k是满足条件的。

解决原问题:
用le数组和ri数组去维护每一个字符串的最左和最右位置。判断每一个ri值-le值是否都大于等于k即可。

综上,算法流程如下:
(1)把所有字符串连起来并在两两字符串之间插入不同的且原字符串不存在的字符得到新字符串s。
(2)求出s的后缀数组和高度数组。
(3)二分搜索出满足条件的最长子串长度

代码

#include <string>
#include <iostream>
#include <vector>
#include <cstring>
#include <algorithm>
#define INF 0x3f3f3f3f
#define rank ranka
using namespace std;

const int maxn=2e5+100;
int n,k,rank[maxn],tmp[maxn],sa[maxn],lcp[maxn];
string s;

bool cmp(int i,int j)
{
    if(rank[i]!=rank[j])
        return rank[i]<rank[j];
    else
    {
        int ri=i+k<=n?rank[i+k]:-1;
        int rj=j+k<=n?rank[j+k]:-1;
        return ri<rj;
    }
}
void get_sa()
{
    for(int i=0; i<=n; i++)
    {
        sa[i]=i;
        rank[i]=i<n?s[i]:-1;
    }
    for(k=1; k<=n; k*=2)
    {
        sort(sa,sa+n+1,cmp);
        tmp[sa[0]]=0;
        for(int i=1; i<=n; i++)
            tmp[sa[i]]=tmp[sa[i-1]]+(cmp(sa[i-1],sa[i])?1:0);
        for(int i=0; i<=n; i++)
            rank[i]=tmp[i];
    }
}
void get_lcp()
{
    for(int i=0; i<=n; i++)
        rank[sa[i]]=i;
    int h=0;
    lcp[0]=0;
    for(int i=0; i<n; i++)
    {
        int j=sa[rank[i]-1];
        if(h)
            h--;
        for(; i+h<n && j+h<n; h++)
            if(s[i+h]!=s[j+h])
                break;
        lcp[rank[i]-1]=h;
    }
}

const int maxm=12;
int ri[maxm],le[maxm],id[maxn];
int m;
bool check(int l)
{
    //初始化
    for(int i=0;i<maxm;i++) ri[i]=-INF,le[i]=INF;
    for(int i=0;i<n;i++)
    {
        if(lcp[i]>=l)
        {
            int x=id[sa[i]];
            ri[x]=max(ri[x],sa[i]);
            le[x]=min(le[x],sa[i]);
            x=id[sa[i+1]];
            ri[x]=max(ri[x],sa[i+1]);
            le[x]=min(le[x],sa[i+1]);
        }
        if(lcp[i]<l || i==n-1)//一个长度为l的字符枚举完毕
        {
            bool ok=true;
            for(int i=1;i<=m;i++)
            {
                if(ri[i]-le[i]<l) ok=false;
                //初始化
                ri[i]=-INF;
                le[i]=INF;
            }
            if(ok) return true;
        }
    }
    return false;
}
int binary()//二分
{
    int L=1,R=1e4;
    while(L<R)
    {
        int mid=(L+R+1)>>1;//mid向R靠近,用L存满足条件的
        if(check(mid)) L=mid;
        else R=mid-1;
    }
    return L;
}

int main()
{
    int T;
    string t;
    cin>>T;
    while(T--)
    {
        s="";
        int sum=0;
        cin>>m;
        for(int i=1;i<=m;i++)
        {
            cin>>t;
            for(int j=0;j<t.size();j++)
            {
                id[sum++]=i;//第sum位的字符属于第i个字符串
            }
            id[sum++]=0;//中间添加的字符
            s+=t;
            s+='#'+i;
        }
        //求后缀数组和高度数组
        n=s.size();
        get_sa();
        get_lcp();
        //二分
        int l=binary();
        if(!check(l)) l=0;//搜索出来的结果l也不满足条件
        cout<<l<<endl;
    }
    return 0;
}

参考博客

模板总结——高度数组(LCP Array,Longest Common Prefix Array)
模板总结——后缀数组

阅读更多
想对作者说点什么?

博主推荐

换一批

没有更多推荐了,返回首页