后缀数组总结

第二遍刷后缀数组的论文题了,记录一下思路


先贴一下几种求sa的模板

n*logn*logn 的快速排序

/*
时间复杂度n*logn*logn
模板的调用
build_sa(s,n)     //n为原来字符串的长度
N=n;
*/
int Rank[MAXN+1],tmp[MAXN+1],sa[MAXN+1],l,s[MAXN+1],N;

bool compare_sa(int i,int j){
    if(Rank[i]!=Rank[j])
        return Rank[i]<Rank[j];
    else{
        int ri=i+l<=N? Rank[i+l]:-1;
        int rj=j+l<=N? Rank[j+l]:-1;
        return ri<rj;
    }
}

//计算字符串s的后缀数组
void build_sa(int s[],int n){
    for(int i=0;i<=n;i++){
        sa[i]=i;
        Rank[i]=i<n ? s[i]:-1;
    }
    //利用对长度为k的排序结果对长度为2k的排序
    for(l=1;l<=n;l*=2){
        sort(sa,sa+n+1,compare_sa);
        tmp[sa[0]]=0;   //先在tmp中临时存储新计算的Rank,再转存回Rank中
        for(int i=1;i<=n;i++)
            tmp[sa[i]]=tmp[sa[i-1]]+(compare_sa(sa[i-1],sa[i])?1:0);
        for(int i=0;i<=n;i++)
            Rank[i]=tmp[i];
    }
}

n*logn的基数排序

/*
*倍增算法nlogn
*将待排序数组放在0~n-1中,在最后补一个0
*build(,n+1,);//注意是n+1
*getHeight(,n);
*例如:
*n   = 8;
*num[]   = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0
*Rank[]  = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值
*sa[]    = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值
*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值
*/
int s[maxn];
int sa[maxn],t1[maxn],t2[maxn],c[maxn];
//构造字符串S的后缀数组,每个字符值必须为0~m-1

void build_sa(int s[],int n,int m){
    int *x=t1,*y=t2;
    for(int i=0;i<m;i++)    c[i]=0;
    for(int i=0;i<n;i++)    c[x[i]=s[i]]++;
    for(int i=1;i<m;i++)    c[i]+=c[i-1];
    for(int i=n-1;i>=0;i--)     sa[--c[x[i]]]=i;
    for(int k=1;k<=n;k<<=1){
        int p=0;
        for(int i=n-k;i<n;i++)  y[p++]=i;
        for(int i=0;i<n;i++)    if(sa[i]>=k)    y[p++]=sa[i]-k;
        for(int i=0;i<m;i++)    c[i]=0;
        for(int i=0;i<n;i++)    c[x[y[i]]]++;
        for(int i=0;i<m;i++)    c[i]+=c[i-1];
        for(int i=n-1;i>=0;i--)    sa[--c[x[y[i]]]]=y[i];
        swap(x,y);
        p=1;x[sa[0]]=0;
        for(int i=1;i<n;i++)
            x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++;
        if(p>=n)    break;
        m=p;
    }
}

O(n)的DC3

/*
dc3(s,sa,n+1,123)的调用
sa数组和s数组应该扩大3*/
int ws[maxn],wa[maxn],wb[maxn],wv[maxn],sa[maxn],f[maxn];
char str[maxn];
int s[maxn];
//dc3
#define F(x) ((x)/3+((x)%3==1?0:tb))
#define G(x) ((x)<tb?(x)*3+1:((x)-tb)*3+2)
int c0(int *r,int a,int b)
{
    return r[a]==r[b]&&r[a+1]==r[b+1]&&r[a+2]==r[b+2];
}

int c12(int k,int *r,int a,int b)
{
    if(k==2) return r[a]<r[b]||r[a]==r[b]&&c12(1,r,a+1,b+1);
    else return r[a]<r[b]||r[a]==r[b]&&wv[a+1]<wv[b+1];
}

void sort(int *r,int *a,int *b,int n,int m)
{
    int i;
    for(i=0; i<n; i++) wv[i]=r[a[i]];
    for(i=0; i<m; i++) ws[i]=0;
    for(i=0; i<n; i++) ws[wv[i]]++;
    for(i=1; i<m; i++) ws[i]+=ws[i-1];
    for(i=n-1; i>=0; i--) b[--ws[wv[i]]]=a[i];
    return;
}
void dc3(int *r,int *sa,int n,int m)
{
    int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p;
    r[n]=r[n+1]=0;
    for(i=0; i<n; i++) if(i%3!=0) wa[tbc++]=i;
    sort(r+2,wa,wb,tbc,m);
    sort(r+1,wb,wa,tbc,m);
    sort(r,wa,wb,tbc,m);
    for(p=1,rn[F(wb[0])]=0,i=1; i<tbc; i++)
        rn[F(wb[i])]=c0(r,wb[i-1],wb[i])?p-1:p++;
    if(p<tbc) dc3(rn,san,tbc,p);
    else for(i=0; i<tbc; i++) san[rn[i]]=i;
    for(i=0; i<tbc; i++) if(san[i]<tb) wb[ta++]=san[i]*3;
    if(n%3==1) wb[ta++]=n-1;
    sort(r,wb,wa,ta,m);
    for(i=0; i<tbc; i++) wv[wb[i]=G(san[i])]=i;
    for(i=0,j=0,p=0; i<ta && j<tbc; p++)
        sa[p]=c12(wb[j]%3,r,wa[i],wb[j])?wa[i++]:wb[j++];
    for(; i<ta; p++) sa[p]=wa[i++];
    for(; j<tbc; p++) sa[p]=wb[j++];
    return;
}

height数组的求解和RMQ的使用

int Rank[maxn],height[maxn];
//getHeight(,n);
void getHeight(int s[],int n){
    int k=0;
    for(int i=0;i<=n;i++)   Rank[sa[i]]=i;
    for(int i=0;i<n;i++){
        if(k)   k--;
        int j=sa[Rank[i]-1];
        while(s[i+k]==s[j+k])   k++;
        height[Rank[i]]=k;
    }
}

int dp[maxn][20];

void RMQ_init(int n){
    for(int i=1;i<=n;i++)   dp[i][0]=height[i];
    for(int j=1;(1<<j)<=n;j++)
        for(int i=1;i+(1<<j)-1<=n;i++)
            dp[i][j]=min(dp[i][j-1],dp[i+(1<<(j-1))][j-1]);
}

//L和R表示在字符串中的位置,rmq表示查询[L,R]之间的最长公共后缀
int rmq(int L,int R){
    if(L==R)
        return N-R+1;//N定义为strlen(n)
    L=Rank[L],R=Rank[R];
    if(L>R)
        swap(L,R);
    L++;
    int k=(int)log2(R-L+1);
    return min(dp[L][k],dp[R-(1<<k)+1][k]);
}

接下来是对应论文中的一些题目。

重复子串

  • poj 1743 给定一个字符串,求最长重复子串,这两个子串不能重叠。
    传送门:poj 1743 Musical Theme

    思路:先求出sa和height,然后二分答案,假设答案为k,把连续height大于等于k的放在一组,对于每一组中的判断,只要判断这一组中sa的最小值和最大值之差是否大于等于k(只要有一组成立这个答案便是合法的)


#include<algorithm>
#include<cstdio>
#include<cmath>
using namespace std;
const int maxn=20100;
/*
*倍增算法nlogn
*将待排序数组放在0~n-1中,在最后补一个0
*build(,n+1,);//注意是n+1
*getHeight(,n);
*例如:
*n   = 8;
*num[]   = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0
*Rank[]  = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值
*sa[]    = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值
*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值
*/
int s[maxn];
int sa[maxn],t1[maxn],t2[maxn],c[maxn];
//构造字符串S的后缀数组,每个字符值必须为0~m-1

void build_sa(int s[],int n,int m){
    int *x=t1,*y=t2;
    for(int i=0;i<m;i++)    c[i]=0;
    for(int i=0;i<n;i++)    c[x[i]=s[i]]++;
    for(int i=1;i<m;i++)    c[i]+=c[i-1];
    for(int i=n-1;i>=0;i--)     sa[--c[x[i]]]=i;
    for(int k=1;k<=n;k<<=1){
        int p=0;
        for(int i=n-k;i<n;i++)  y[p++]=i;
        for(int i=0;i<n;i++)    if(sa[i]>=k)    y[p++]=sa[i]-k;
        for(int i=0;i<m;i++)    c[i]=0;
        for(int i=0;i<n;i++)    c[x[y[i]]]++;
        for(int i=0;i<m;i++)    c[i]+=c[i-1];
        for(int i=n-1;i>=0;i--)    sa[--c[x[y[i]]]]=y[i];
        swap(x,y);
        p=1;x[sa[0]]=0;
        for(int i=1;i<n;i++)
            x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++;
        if(p>=n)    break;
        m=p;
    }
}

int Rank[maxn],height[maxn];

void getHeight(int s[],int n){
    int k=0;
    for(int i=0;i<=n;i++)   Rank[sa[i]]=i;
    for(int i=0;i<n;i++){
        if(k)   k--;
        int j=sa[Rank[i]-1];
        while(s[i+k]==s[j+k])   k++;
        height[Rank[i]]=k;
    }
}

const int INF=0x3f3f3f3f;
bool check(int num,int n){
    int minv=INF,maxv=0;
    for(int i=2;i<=n;i++){
        if(height[i]>=num){
            minv=min(minv,min(sa[i],sa[i-1]));
            maxv=max(maxv,max(sa[i],sa[i-1]));
            if(maxv-minv>=num)
                return true;
        }
        else
            minv=INF,maxv=0;
    }
    return false;
}

int a[maxn];

int main(){
    int n;
    while(scanf("%d",&n)!=EOF){
        if(n==0)
            break;
        for(int i=0;i<n;i++)
            scanf("%d",&a[i]);
        for(int i=0;i<n-1;i++)
            s[i]=a[i+1]-a[i]+100;
        n--,s[n]=0;
        build_sa(s,n+1,189);
        getHeight(s,n);
        int low=0,high=n,ans=0;
        while(high-low>=0){
            int mid=(high+low)>>1;
            if(check(mid,n))
                low=mid+1,ans=mid+1;
            else
                high=mid-1;
        }
        printf("%d\n",ans<5 ? 0 :ans);
    }
    return 0;
}
  • poj 3261 给定一个字符串,求至少出现k次的最长重复子串,这k个子串可以重叠。
    传送门:poj 3261 Milk Patterns

思路:二分答案x,然后对height进行分组,判断有没有一组它的合法的height数目>=k-1

#include<algorithm>
#include<cstring>
#include<cmath>
#include<cstdio>
using namespace std;
const int MAXN=41000;
/*
时间复杂度n*logn*logn
模板的调用
build_sa(s,n)     //n为原来字符串的长度
N=n;
*/
int Rank[MAXN+1],tmp[MAXN+1],sa[MAXN+1],l,s[MAXN+1],N;

bool compare_sa(int i,int j){
    if(Rank[i]!=Rank[j])
        return Rank[i]<Rank[j];
    else{
        int ri=i+l<=N? Rank[i+l]:-1;
        int rj=j+l<=N? Rank[j+l]:-1;
        return ri<rj;
    }
}

//计算字符串s的后缀数组
void build_sa(int s[],int n){
    for(int i=0;i<=n;i++){
        sa[i]=i;
        Rank[i]=i<n ? s[i]:-1;
    }
    //利用对长度为k的排序结果对长度为2k的排序
    for(l=1;l<=n;l*=2){
        sort(sa,sa+n+1,compare_sa);
        tmp[sa[0]]=0;   //先在tmp中临时存储新计算的Rank,再转存回Rank中
        for(int i=1;i<=n;i++)
            tmp[sa[i]]=tmp[sa[i-1]]+(compare_sa(sa[i-1],sa[i])?1:0);
        for(int i=0;i<=n;i++)
            Rank[i]=tmp[i];
    }
}
int height[MAXN+1];

void getHeight(int s[],int n){
    int k=0;
    for(int i=0;i<=n;i++)   Rank[sa[i]]=i;
    for(int i=0;i<n;i++){
        if(k)   k--;
        int j=sa[Rank[i]-1];
        while(s[i+k]==s[j+k])   k++;
        height[Rank[i]]=k;
    }
}

bool check(int num,int k,int n){
    int cnt=0;
    for(int i=2;i<=n;i++){
        if(height[i]>=num){
            cnt++;
            if(cnt>=k-1)
                return true;
        }
        else
            cnt=0;
    }
    return false;
}

int main(){
    int n,time;
    while(scanf("%d%d",&n,&time)!=EOF){
        for(int i=0;i<n;i++)
            scanf("%d",&s[i]),s[i]++;
        s[n]=0,N=n;
        build_sa(s,n);
        getHeight(s,n);
        int low=0,high=n,ans=0;
        while(high-low>=0){
            int mid=low+high>>1;
            if(check(mid,time,n))
                low=mid+1,ans=mid;
            else
                high=mid-1;
        }
        printf("%d\n",ans);
    }
    return 0;
}

发散思维:给定一个字符串,求至少出现k次的最长重复子串,这k个子串不可重叠。

思路一:二分答案x,然后对于height分组,对于每一组中所有的开头,我们将其排序,贪心取第一个之后,判断是否有一组他能选取的总数大于等于k。

时间复杂度n*logn*logn

思路二:二分答案x,然后处理出每个点之后距离这个点长度为x-1的Hash值,建立一个next表,判断有没有一个next表的长度大于等于k(如果当前点和上一个相同next值之间距离小于x的直接不加人)

时间复杂度:n*logn


子串的个数

  • spoj 694 给定一个字符串,求不相同的子串的个数。
    传送门:spoj 649 Distinct Substrings

    思路:如果不算重复的,那么总的子串的个数为strlen(s)*(strlen(s)-1)/2,每个子串一定是某个后缀的前缀,那么原问题等价于求所有后缀之间的不相同子串个数。因为每个子串只能被重复计算一次,那么再减掉height[i]的和就是答案

/*
spoj694
给定一个字符串,求不相同的子串的个数。
*/
#include<algorithm>
#include<cstdio>
#include<cmath>
#include<cstring>
using namespace std;
const int maxn=20100;
/*
*倍增算法nlogn
*将待排序数组放在0~n-1中,在最后补一个0
*build(,n+1,);//注意是n+1
*getHeight(,n);
*例如:
*n   = 8;
*num[]   = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0
*Rank[]  = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值
*sa[]    = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值
*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值
*/
int s[maxn];
char str[maxn];
int sa[maxn],t1[maxn],t2[maxn],c[maxn];
//构造字符串S的后缀数组,每个字符值必须为0~m-1

void build_sa(int s[],int n,int m){
    int *x=t1,*y=t2;
    for(int i=0;i<m;i++)    c[i]=0;
    for(int i=0;i<n;i++)    c[x[i]=s[i]]++;
    for(int i=1;i<m;i++)    c[i]+=c[i-1];
    for(int i=n-1;i>=0;i--)     sa[--c[x[i]]]=i;
    for(int k=1;k<=n;k<<=1){
        int p=0;
        for(int i=n-k;i<n;i++)  y[p++]=i;
        for(int i=0;i<n;i++)    if(sa[i]>=k)    y[p++]=sa[i]-k;
        for(int i=0;i<m;i++)    c[i]=0;
        for(int i=0;i<n;i++)    c[x[y[i]]]++;
        for(int i=0;i<m;i++)    c[i]+=c[i-1];
        for(int i=n-1;i>=0;i--)    sa[--c[x[y[i]]]]=y[i];
        swap(x,y);
        p=1;x[sa[0]]=0;
        for(int i=1;i<n;i++)
            x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++;
        if(p>=n)    break;
        m=p;
    }
}

int Rank[maxn],height[maxn];

void getHeight(int s[],int n){
    int k=0;
    for(int i=0;i<=n;i++)   Rank[sa[i]]=i;
    for(int i=0;i<n;i++){
        if(k)   k--;
        int j=sa[Rank[i]-1];
        while(s[i+k]==s[j+k])   k++;
        height[Rank[i]]=k;
    }
}

int main(){
    int n,k;
    int _;
    scanf("%d",&_);
    while(_--){
        scanf("%s",str);
        int n=strlen(str);
        int ans=(n+1)*n/2;
        for(int i=0;i<=n;i++)
            s[i]=str[i];
        build_sa(s,n+1,128);
        getHeight(s,n);
        for(int i=2;i<=n;i++)
            ans-=height[i];
        printf("%d\n",ans);
    }
    return 0;
}
  • Hdu 5769 Substring
    题意:给你一个字符串和一个字符,问有多少个不同的子串包括这个字符。

    思路:先求出总共有多少个不同的,然后比如相邻两个x的位置分别是x1,x2, 减去所有相邻的之间的方案数,再加上相邻之间重复的。

#include <iostream>
#include <string.h>
#include <algorithm>
#include <stdio.h>
using namespace std;
const int MAXN=100100;

int sa[MAXN];
int t1[MAXN],t2[MAXN],c[MAXN];
int Rank[MAXN],height[MAXN];

void build_sa(int s[],int n,int m)
{
    int i,j,p,*x=t1,*y=t2;
    for(i=0;i<m;i++)c[i]=0;
    for(i=0;i<n;i++)c[x[i]=s[i]]++;
    for(i=1;i<m;i++)c[i]+=c[i-1];
    for(i=n-1;i>=0;i--)sa[--c[x[i]]]=i;
    for(j=1;j<=n;j<<=1)
    {
        p=0;
        for(i=n-j;i<n;i++)y[p++]=i;
        for(i=0;i<n;i++)if(sa[i]>=j)y[p++]=sa[i]-j;
        for(i=0;i<m;i++)c[i]=0;
        for(i=0;i<n;i++)c[x[y[i]]]++;
        for(i=1;i<m;i++)c[i]+=c[i-1];
        for(i=n-1;i>=0;i--)sa[--c[x[y[i]]]]=y[i];
        swap(x,y);
        p=1;x[sa[0]]=0;
        for(i=1;i<n;i++)
            x[sa[i]]=y[sa[i-1]]==y[sa[i]] && y[sa[i-1]+j]==y[sa[i]+j]?p-1:p++;
        if(p>=n)break;
        m=p;
    }
}
void getHeight(int s[],int n)
{
    int i,j,k=0;
    for(i=0;i<=n;i++)Rank[sa[i]]=i;
    for(i=0;i<n;i++)
    {
        if(k)k--;
        j=sa[Rank[i]-1];
        while(s[i+k]==s[j+k])k++;
        height[Rank[i]]=k;
    }
}

char str[MAXN],s1[2];
int s[MAXN],e[MAXN];

int main()
{
    int T;
    scanf("%d",&T);
    for(int case1=1;case1<=T;case1++)
    {
        scanf("%s",s1);
        scanf("%s",str);
        int n=strlen(str);
        for(int i=0;i<=n;i++)s[i]=str[i];
        build_sa(s,n+1,128);
        getHeight(s,n);
        long long ans=1LL*n*(n+1)/2;
        int ed=n;//ed刚开始表示总长度
        for(int i=n-1;i>=0;i--){
            if(str[i]==s1[0])  //i表示有字母s1[0]
                ans-=1LL*(ed-i)*(ed-i-1)/2,ed=i;
            else
                e[i]=ed;
        }
        if(str[0]!=s1[0])
            ans-=1LL*ed*(ed+1)/2;
        for(int i=2;i<=n;i++){
            ans-=height[i];
            if(str[sa[i]]!=s1[0])
                ans+=min(height[i],e[sa[i]]-sa[i]);
        }
        printf("Case #%d: %lld\n",case1,ans);
    }
    return 0;
}

连续重复子串

  • poj 2406 给定一个字符串L,已知这个字符串是由某个字符串重复R次得到的,求R的最大值
    传送门:poj 2406 Power Strings

    思路:利用height数组预处理出每个开始的位置和0的最长公共子串same, 如果same==n-i&&same%i==0,更新答案

#include<algorithm>
#include<cstdio>
#include<cmath>
#include<cstring>
using namespace std;
const int maxn=1001000;
int ws[maxn],wa[maxn],wb[maxn],wv[maxn],sa[3*maxn],f[maxn];
char str[maxn];
int s[3*maxn];
//dc3
#define F(x) ((x)/3+((x)%3==1?0:tb))
#define G(x) ((x)<tb?(x)*3+1:((x)-tb)*3+2)
int c0(int *r,int a,int b)
{
    return r[a]==r[b]&&r[a+1]==r[b+1]&&r[a+2]==r[b+2];
}

int c12(int k,int *r,int a,int b)
{
    if(k==2) return r[a]<r[b]||r[a]==r[b]&&c12(1,r,a+1,b+1);
    else return r[a]<r[b]||r[a]==r[b]&&wv[a+1]<wv[b+1];
}

void sort(int *r,int *a,int *b,int n,int m)
{
    int i;
    for(i=0; i<n; i++) wv[i]=r[a[i]];
    for(i=0; i<m; i++) ws[i]=0;
    for(i=0; i<n; i++) ws[wv[i]]++;
    for(i=1; i<m; i++) ws[i]+=ws[i-1];
    for(i=n-1; i>=0; i--) b[--ws[wv[i]]]=a[i];
    return;
}
void dc3(int *r,int *sa,int n,int m)
{
    int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p;
    r[n]=r[n+1]=0;
    for(i=0; i<n; i++) if(i%3!=0) wa[tbc++]=i;
    sort(r+2,wa,wb,tbc,m);
    sort(r+1,wb,wa,tbc,m);
    sort(r,wa,wb,tbc,m);
    for(p=1,rn[F(wb[0])]=0,i=1; i<tbc; i++)
        rn[F(wb[i])]=c0(r,wb[i-1],wb[i])?p-1:p++;
    if(p<tbc) dc3(rn,san,tbc,p);
    else for(i=0; i<tbc; i++) san[rn[i]]=i;
    for(i=0; i<tbc; i++) if(san[i]<tb) wb[ta++]=san[i]*3;
    if(n%3==1) wb[ta++]=n-1;
    sort(r,wb,wa,ta,m);
    for(i=0; i<tbc; i++) wv[wb[i]=G(san[i])]=i;
    for(i=0,j=0,p=0; i<ta && j<tbc; p++)
        sa[p]=c12(wb[j]%3,r,wa[i],wb[j])?wa[i++]:wb[j++];
    for(; i<ta; p++) sa[p]=wa[i++];
    for(; j<tbc; p++) sa[p]=wb[j++];
    return;
}

int Rank[maxn],height[maxn];

void getHeight(int s[],int n){
    int k=0;
    for(int i=0;i<=n;i++)   Rank[sa[i]]=i;
    for(int i=0;i<n;i++){
        if(k)   k--;
        int j=sa[Rank[i]-1];
        while(s[i+k]==s[j+k])   k++;
        height[Rank[i]]=k;
    }
}

int minv[maxn];

int main(){
    while(scanf("%s",str)!=EOF){
        if(str[0]=='.')
            break;
        int n=strlen(str);
        for(int i=0;i<=n;i++)
            s[i]=str[i];
        dc3(s,sa,n+1,128);
        getHeight(s,n);
        int now=n;//排在第0位的height
        for(int i=Rank[0]+1;i<=n;i++){ //Rank比0开始的大的
            now=min(now,height[i]);
            minv[sa[i]]=now;
        }
        now=n;
        for(int i=Rank[0]-1;i>=0;i--){
            now=min(now,height[i+1]);
            minv[sa[i]]=now;
        }
        int ans=1;
        for(int i=1;i<=n;i++){
            int same=minv[i];
            if(same==n-i&&same%i==0)
                ans=max(ans,same/i+1);
        }
        printf("%d\n",ans);
    }
    return 0;
}
  • spoj 687 给定一个字符串,求重复次数最多的连续重复子串。
    传送门:spoj 687 Repeats

    思路:先枚举长度L,下一步是枚举开头,开头只需要枚举L的倍数,为什么呢?
    i到i+L-1开头的最长公共前缀要么是小于等于i的前缀,要么是包含了i+L开头的最长公共前缀(这个在接下来会被包含进去)
    接下来表示解决上面残留下来的第二个问题
    我们不妨先算一下,从s[i*L]开始,除了匹配len/L个循环节之外,还剩余了len%L个,令pre=i-(L-len%L)重新计算一下便可以了。

#include<algorithm>
#include<cstdio>
#include<cmath>
using namespace std;
const int maxn=50100;
/*
*倍增算法nlogn
*将待排序数组放在0~n-1中,在最后补一个0
*build(,n+1,);//注意是n+1
*getHeight(,n);
*例如:
*n   = 8;
*num[]   = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0
*Rank[]  = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值
*sa[]    = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值
*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值
*/
int s[maxn];
int sa[maxn],t1[maxn],t2[maxn],c[maxn];
//构造字符串S的后缀数组,每个字符值必须为0~m-1

void build_sa(int s[],int n,int m){
    int *x=t1,*y=t2;
    for(int i=0;i<m;i++)    c[i]=0;
    for(int i=0;i<n;i++)    c[x[i]=s[i]]++;
    for(int i=1;i<m;i++)    c[i]+=c[i-1];
    for(int i=n-1;i>=0;i--)     sa[--c[x[i]]]=i;
    for(int k=1;k<=n;k<<=1){
        int p=0;
        for(int i=n-k;i<n;i++)  y[p++]=i;
        for(int i=0;i<n;i++)    if(sa[i]>=k)    y[p++]=sa[i]-k;
        for(int i=0;i<m;i++)    c[i]=0;
        for(int i=0;i<n;i++)    c[x[y[i]]]++;
        for(int i=0;i<m;i++)    c[i]+=c[i-1];
        for(int i=n-1;i>=0;i--)    sa[--c[x[y[i]]]]=y[i];
        swap(x,y);
        p=1;x[sa[0]]=0;
        for(int i=1;i<n;i++)
            x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++;
        if(p>=n)    break;
        m=p;
    }
}

int Rank[maxn],height[maxn];

void getHeight(int s[],int n){
    int k=0;
    for(int i=0;i<=n;i++)   Rank[sa[i]]=i;
    for(int i=0;i<n;i++){
        if(k)   k--;
        int j=sa[Rank[i]-1];
        while(s[i+k]==s[j+k])   k++;
        height[Rank[i]]=k;
    }
}

int dp[maxn][20];

void RMQ_init(int n){
    for(int i=1;i<=n;i++)   dp[i][0]=height[i];
    for(int j=1;(1<<j)<=n;j++)
        for(int i=1;i+(1<<j)-1<=n;i++)
            dp[i][j]=min(dp[i][j-1],dp[i+(1<<(j-1))][j-1]);
}

int rmq(int L,int R){
    L=Rank[L],R=Rank[R];
    if(L>R)
        swap(L,R);
    L++;
    int k=(int)log2(R-L+1);
    return min(dp[L][k],dp[R-(1<<k)+1][k]);
}

int main(){
    int _,n;
    scanf("%d",&_);
    while(_--){
        scanf("%d",&n);
        char c[2];
        for(int i=0;i<n;i++)
            scanf("%s",c),s[i]=c[0]-'a'+1;
        s[n]=0;
        build_sa(s,n+1,10);
        getHeight(s,n);
        RMQ_init(n);
        int maxv=1;
        for(int l=1;l<=n/2;l++) //枚举长度
            for(int i=0;i<=n;i+=l){
                if(i+l>n)
                    continue;
                int len=rmq(i,i+l);
                //printf("%d %d %d\n",i,i+l,len);
                int tmp=len/l+1,pre=i-(l-len%l);
                if((len%l!=0)&&pre>=0)
                    if(rmq(pre,pre+l)>=l)
                        tmp++;
                maxv=max(maxv,tmp);
            }
        printf("%d\n",maxv);
    }
    return 0;
}

两个字符串相关的问题

常见的一种做法是先连接两个字符串,然后求后缀数组和height数组,利用height数组进行求解。

  • poj 2774 给你两个字符串A,B,求最长公共子串
    传送门:poj2774 Long Long Message

    思路:字符串的任何一个子串都是这个字符串的某个后缀的前缀->由于要计算 A 的后缀和 B 的后缀的最长公共前缀,所以先将第二个字符串写在第一个字符串后面,中间用一个没有出现过的字符隔开,再求这个新的字符串的后缀数组。->当 suffix(sa[i-1])和suffix(sa[i])不是同一个字符串中的两个后缀时,判断答案。

#include<algorithm>
#include<cstdio>
#include<cmath>
#include<cstring>
using namespace std;
const int maxn=200100;
/*
*倍增算法nlogn
*将待排序数组放在0~n-1中,在最后补一个0
*build(,n+1,);//注意是n+1
*getHeight(,n);
*例如:
*n   = 8;
*num[]   = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0
*Rank[]  = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值
*sa[]    = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值
*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值
*/
int s[maxn];
int sa[maxn],t1[maxn],t2[maxn],c[maxn];
//构造字符串S的后缀数组,每个字符值必须为0~m-1

void build_sa(int s[],int n,int m){
    int *x=t1,*y=t2;
    for(int i=0;i<m;i++)    c[i]=0;
    for(int i=0;i<n;i++)    c[x[i]=s[i]]++;
    for(int i=1;i<m;i++)    c[i]+=c[i-1];
    for(int i=n-1;i>=0;i--)     sa[--c[x[i]]]=i;
    for(int k=1;k<=n;k<<=1){
        int p=0;
        for(int i=n-k;i<n;i++)  y[p++]=i;
        for(int i=0;i<n;i++)    if(sa[i]>=k)    y[p++]=sa[i]-k;
        for(int i=0;i<m;i++)    c[i]=0;
        for(int i=0;i<n;i++)    c[x[y[i]]]++;
        for(int i=0;i<m;i++)    c[i]+=c[i-1];
        for(int i=n-1;i>=0;i--)    sa[--c[x[y[i]]]]=y[i];
        swap(x,y);
        p=1;x[sa[0]]=0;
        for(int i=1;i<n;i++)
            x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++;
        if(p>=n)    break;
        m=p;
    }
}

int Rank[maxn],height[maxn];

void getHeight(int s[],int n){
    int k=0;
    for(int i=0;i<=n;i++)   Rank[sa[i]]=i;
    for(int i=0;i<n;i++){
        if(k)   k--;
        int j=sa[Rank[i]-1];
        while(s[i+k]==s[j+k])   k++;
        height[Rank[i]]=k;
    }
}

char str[maxn];

int main(){
    while(scanf("%s",str)!=EOF){
        int len=strlen(str);
        str[len]='$';
        scanf("%s",str+len+1);
        //printf("%s\n",str);
        int n=strlen(str);
        for(int i=0;i<=n;i++)
            s[i]=str[i];
        build_sa(s,n+1,128);
        getHeight(s,n);
        int ans=0;
        for(int i=2;i<=n;i++){
            if(1LL*(sa[i]-len)*(sa[i-1]-len)<0)
                ans=max(ans,height[i]);
        }
        printf("%d\n",ans);
    }
}

子串的个数

  • poj 3415 给定两个字符串 A 和 B,求长度不小于 k 的公共子串的个数(可以相同) 。
    传送门:poj 3415 Common Substrings

    思路:基本思路是计算 A 的所有后缀和 B 的所有后缀之间的最长公共前缀的长度,把最长公共前缀长度不小于 k 的部分全部加起来。先将两个字符串连起来,中间用一个没有出现过的字符隔开。按 height 值分组后,接下来的工作便是快速的统计每组中后缀之间的最长公共前缀之和。扫描一遍,每遇到一个 B 的后缀就统计与前面的 A 的后缀能产生多少个长度不小于 k 的公共子串, 这里 A 的后缀需要用一个单调的栈来高效的维护。然后对 A 也这样做一次。

#include<algorithm>
#include<cstdio>
#include<cmath>
#include<cstring>
using namespace std;
const int maxn=401000;
/*
*倍增算法nlogn
*将待排序数组放在0~n-1中,在最后补一个0
*build(,n+1,);//注意是n+1
*getHeight(,n);
*例如:
*n   = 8;
*num[]   = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0
*Rank[]  = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值
*sa[]    = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值
*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值
*/
int s[maxn];
int sa[maxn],t1[maxn],t2[maxn],c[maxn];
//构造字符串S的后缀数组,每个字符值必须为0~m-1

void build_sa(int s[],int n,int m){
    int *x=t1,*y=t2;
    for(int i=0;i<m;i++)    c[i]=0;
    for(int i=0;i<n;i++)    c[x[i]=s[i]]++;
    for(int i=1;i<m;i++)    c[i]+=c[i-1];
    for(int i=n-1;i>=0;i--)     sa[--c[x[i]]]=i;
    for(int k=1;k<=n;k<<=1){
        int p=0;
        for(int i=n-k;i<n;i++)  y[p++]=i;
        for(int i=0;i<n;i++)    if(sa[i]>=k)    y[p++]=sa[i]-k;
        for(int i=0;i<m;i++)    c[i]=0;
        for(int i=0;i<n;i++)    c[x[y[i]]]++;
        for(int i=0;i<m;i++)    c[i]+=c[i-1];
        for(int i=n-1;i>=0;i--)    sa[--c[x[y[i]]]]=y[i];
        swap(x,y);
        p=1;x[sa[0]]=0;
        for(int i=1;i<n;i++)
            x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++;
        if(p>=n)    break;
        m=p;
    }
}

int Rank[maxn],height[maxn];

void getHeight(int s[],int n){
    int k=0;
    for(int i=0;i<=n;i++)   Rank[sa[i]]=i;
    for(int i=0;i<n;i++){
        if(k)   k--;
        int j=sa[Rank[i]-1];
        while(s[i+k]==s[j+k])   k++;
        height[Rank[i]]=k;
    }
}

int r[maxn];
char str[maxn];
long long  Count_pre[maxn],Count_suf[maxn];
long long dp_pre[maxn],dp_suf[maxn];

int main(){
    int k;
    while(scanf("%d",&k)!=EOF){
        if(k==0)
            break;
        scanf("%s",str);
        int len=strlen(str);
        memset(Count_pre,0,sizeof(Count_pre));
        memset(Count_suf,0,sizeof(Count_suf));
        memset(dp_pre,0,sizeof(dp_pre));
        memset(dp_suf,0,sizeof(dp_suf));
        str[len]='$';
        scanf("%s",str+len+1);
        int n=strlen(str);
        for(int i=0;i<=n;i++)
            s[i]=str[i];
        build_sa(s,n+1,150);
        getHeight(s,n);
        r[n]=n; //找到第一个比它小的
        for(int i=n-1;i>=0;i--){
            int tmp=i;
            while(tmp!=n&&height[i]<=height[tmp+1])
                tmp=r[tmp+1];
            r[i]=tmp;
        }
//        for(int i=0;i<=n;i++)
//            printf("height[%d] %d sa[%d] %d r[%d] %d\n",i,height[i],i,sa[i],i,r[i]);
        long long ans=0;
        for(int i=n;i>=1;i--){
            if(sa[i]>len)
                Count_suf[i]=Count_suf[i+1]+1,dp_suf[i]=dp_suf[r[i]+1]+1LL*(height[i]-k+1)*(Count_suf[i]-Count_suf[r[i]+1]);
            else if(sa[i]<len){
                Count_suf[i]=Count_suf[i+1];
                ans+=dp_suf[i+1];
                if(height[i]>=k)
                    dp_suf[i]=dp_suf[r[i]+1]+1LL*(height[i]-k+1)*(Count_suf[i]-Count_suf[r[i]+1]);
            }
            if(height[i]<k)
                dp_suf[i]=0,Count_suf[i]=0;
        }
        //printf("%lld\n",ans);
        for(int i=n;i>=1;i--){
            if(sa[i]<len)
                Count_pre[i]=Count_pre[i+1]+1,dp_pre[i]=dp_pre[r[i]+1]+1LL*(height[i]-k+1)*(Count_pre[i]-Count_pre[r[i]+1]);
            else if(sa[i]>len){
                Count_pre[i]=Count_pre[i+1];
                ans+=dp_pre[i+1];
                if(height[i]>=k)
                    dp_pre[i]=dp_pre[r[i]+1]+1LL*(height[i]-k+1)*(Count_pre[i]-Count_pre[r[i]+1]);
            }
            if(height[i]<k)
                dp_pre[i]=0,Count_pre[i]=0;
        }
        printf("%I64d\n",ans);
    }
    return 0;
}

多个字符串的问题

  • poj 3294 出现在不小于k个字符串中的最长子串
    传送门:poj 3294 Life Forms

    思路:先将这些字符串用未出现的字符相连,然后利用二分答案。

  • spoj 220 给定 n 个字符串,求在每个字符串中至少出现两次且不重叠的最长子串。

    传送门:spoj 220 Relevant Phrases of Annihilation

    思路:先将 n 个字符串连起来,中间用不相同的且没有
    出现在字符串中的字符隔开,求后缀数组。然后二分答案,再将后缀分组。判断的时候,要看是否有一组后缀在每个原来的字符串中至少出现两次,并且在每个原来的字符串中,后缀的起始位置的最大值与最小值之差是否不小于当前答案(判断能否做到不重叠,如果题目中没有不重叠的要求,那么不用做此判断) 。

  • poj 1226 给定 n 个字符串,求出现或反转后出现在每个字符串中的最长子串。
    传送门:poj 1226 Substrings

    思路:只需要先将每个字符串都反过来写一遍,中间用一个互不相同的
    且没有出现在字符串中的字符隔开,再将 n 个字符串全部连起来,中间也是用一个互不相同的且没有出现在字符串中的字符隔开,求后缀数组。然后二分答案,再将后缀分组。判断的时候,要看是否有一组后缀在每个原来的字符串或反转后的字符串中出现。这个做法的时间复杂度为 O(nlogn)。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值