[kuangbin带你飞]专题十八 后缀数组

写了好久才把后缀数组的专题写完= =。。。

后缀数组就是对字符串的所有后缀来搞事,通过对这些后缀排序,来得到这些后缀之前存在的关系。

后缀数组中的sa[]数组(排名数组)和height[](相邻排名lcp)有很多很有用的特性,使得在处理一些字符串问题的时候很给力,比较流行的求后缀数组的算法有O(nlogn)的倍增求法和O(n)的DC3(并不会)。

height[]数组满足特性:sa[i]与saj的最长公共前缀是height[i+1]到height[j]这段区间的最小值。所以问题就可以转化成求区间最小值,同样也可以用倍增法解决这个问题,达到O(nlogn)初始化和O(1)查询。

跟sa相关的题目很多都涉及了多字符串,常用策略就是将字符串全都拼接在一起,中间使用不同的不会出现的字符分隔开他们;还有height[]数组分组也是比较常见的做法,将连续一段满足height[]全都大于等于k的分成一组,这组里的所有后缀相互就都满足最长公共前缀大于等于k,如果这里面的后缀来自n个不同的字符串,那就说明了这n个字符串内存在了长度为k的公共子串。

同时,sa[]数组是后缀的字典序排序,所以有些题目需要字典序最小答案也可以通过sa数组轻易的获得。

二分答案判断是否满足也是比较常见的解题方法。

kuangbin大神的后缀数组专题里的题目几乎都是来自那篇著名的后缀数组的论文,所以都可以在里面找到解题思路。

A - Musical Theme POJ - 1743

求数组里不重叠的变化相同的最长公共子串。
将数组处理一下,a[i]变成a[i]-a[i-1],数组就符合题目要求了,二分答案k,然后就可以用上述的height数组分块的方法将每一个height数组都大于等于k的区间分为一块,要求不重叠,就是要使得分块中sa最大值和最小值对应的后缀下标差大于等于k。

#include<cstdio>
#include<algorithm>
using namespace std;
const int maxn=20005;
const int maxm=1005;
int n;
int r[maxn];
int sa[maxn],t1[maxn],t2[maxn],c[maxn];
int Rank[maxn],height[maxn];
bool cmp(int *r,int a,int b,int l)
{
    return r[a] == r[b] && r[a+l] == r[b+l];
}
void get_sa(int str[],int sa[],int Rank[],int height[],int n,int m)
{
    n++;
    int i, j, p, *x = t1, *y = t2;
    for(i = 0;i < m;i++)c[i] = 0;
    for(i = 0;i < n;i++)c[x[i] = str[i]]++;
    for(i = 1;i < m;i++)c[i] += c[i-1];
    for(i = n-1;i >= 0;i--)sa[--c[x[i]]] = i;
    for(j = 1;j <= n; j <<= 1)
    {
        p = 0;
        for(i = n-j; i < n; i++)y[p++] = i;
        for(i = 0; i < n; i++)if(sa[i] >= j)y[p++] = sa[i] - j;
        for(i = 0; i < m; i++)c[i] = 0;
        for(i = 0; i < n; i++)c[x[y[i]]]++;
        for(i = 1; i < m;i++)c[i] += c[i-1];
        for(i = n-1; i >= 0;i--)sa[--c[x[y[i]]]] = y[i];
        swap(x,y);
        p = 1; x[sa[0]] = 0;
        for(i = 1;i < n;i++)
            x[sa[i]] = cmp(y,sa[i-1],sa[i],j)?p-1:p++;
        if(p >= n)break;
        m = p;
    }
    int k = 0;
    n--;
    for(i = 0;i <= n;i++)Rank[sa[i]] = i;
    for(i = 0;i < n;i++)
    {
        if(k)k--;
        j = sa[Rank[i]-1];
        while(str[i+k] == str[j+k])k++;
        height[Rank[i]] = k;
    }
}

bool func(int k){
    int minn=sa[1],maxx=sa[1];
    for(int i=2;i<=n;i++){
        if(height[i]>=k&&i<n){
            minn=min(minn,sa[i]);
            maxx=max(maxx,sa[i]);
            continue;
        }
        if(maxx-minn>=k)return 1;
        maxx=minn=sa[i];
    }
    return 0;
}


int main(){
    while(~scanf("%d",&n),n){
        for(int i=0;i<n;i++)scanf("%d",&r[i]);
        for(int i=0;i<n-1;i++)r[i]=r[i+1]-r[i]+100;
        get_sa(r,sa,Rank,height,n,200);
        int lef=4,rig=n/2,ans=0;
        while(lef<=rig){
            int mid=(lef+rig)/2;
            if(func(mid)){ans=mid;lef=mid+1;}
            else rig=mid-1;
        }
        ans++;
        if(ans<5)printf("0\n");
        else printf("%d\n",ans);
    }
}

B - Milk Patterns POJ - 3261

求字符串中出现了k次的可重叠子串,大体做法和上面那题差不多,二分答案后判断的方式略有不同,存在一个height数组的分块大于等于k就满足条件。

#include<cstdio>
#include<algorithm>
using namespace std;
typedef long long ll;
const int maxn=20015;
const int maxm=10005;
const ll mod=1e9+7;
int n,m,k;
struct node{
    int nn,id;
}num[maxn];
bool cmp1(node a,node b){
    return a.nn<b.nn;
}
int r[maxn],sa[maxn],t1[maxn],t2[maxn],c[maxn];
int Rank[maxn],height[maxn];

bool cmp(int *r,int a,int b,int l){
    return r[a]==r[b]&&r[a+l]==r[b+l];
}

void build_sa(int n,int m){
  //省略
}

bool judge(int len){
    int cnt=1;
    for(int i=2;i<=n;i++){
        if(height[i]>=len){
            cnt++;
        }
        else{
            cnt=1;
        }
        if(cnt>=k){
            return 1;
        }
    }
    return 0;
}

int main(){
    scanf("%d%d",&n,&k);
  for(int i=0;i<n;i++)scanf("%d",&num[i].nn),num[i].id=i;
    sort(num,num+n,cmp1);
    int cur=1;
    for(int i=0;i<n;i++){
        if(i!=0&&num[i].nn!=num[i-1].nn){
            cur++;
        }
        r[num[i].id]=cur;
    }
    r[n]=0;
    build_sa(n,n+1);
    int lef=0,rig=n,ans=0;
    while(lef<=rig){
        int mid=(lef+rig)/2;
        if(judge(mid)){ans=mid;lef=mid+1;}
        else rig=mid-1;
    }
    printf("%d\n",ans);
    return 0;
}

C - Distinct Substrings SPOJ - DISUBSTR

寻找字符串中不相同子串的数量,也是可以利用height数组完成的事情,height[i]表示sa[i]和sa[i-1]的公共前缀,n-sa[i-1]-height[i]就是sa[i-1]对应的后缀可以产生的与sa[i]不同的子串,正着扫一边就可以处理出答案来了。

#include<cstdio>
#include<algorithm>
#include<cstring>
using namespace std;
const int maxn=1005;
const int maxm=400005;
int n,cas;
char str[maxn];
int r[maxn];
int ans[maxn];
int sa[maxn],t1[maxn],t2[maxn],c[maxn];
int Rank[maxn],height[maxn];
bool cmp(int *r,int a,int b,int l)
{
    return r[a] == r[b] && r[a+l] == r[b+l];
}
void get_sa(int n,int m){
    n++;
    int i, j, p, *x = t1, *y = t2;
    for(i = 0;i < m;i++)c[i] = 0;
    for(i = 0;i < n;i++)c[x[i] = r[i]]++;
    for(i = 1;i < m;i++)c[i] += c[i-1];
    for(i = n-1;i >= 0;i--)sa[--c[x[i]]] = i;
    for(j = 1;j <= n; j <<= 1)
    {
        p = 0;
        for(i = n-j; i < n; i++)y[p++] = i;
        for(i = 0; i < n; i++)if(sa[i] >= j)y[p++] = sa[i] - j;
        for(i = 0; i < m; i++)c[i] = 0;
        for(i = 0; i < n; i++)c[x[y[i]]]++;
        for(i = 1; i < m;i++)c[i] += c[i-1];
        for(i = n-1; i >= 0;i--)sa[--c[x[y[i]]]] = y[i];
        swap(x,y);
        p = 1; x[sa[0]] = 0;
        for(i = 1;i < n;i++)
            x[sa[i]] = cmp(y,sa[i-1],sa[i],j)?p-1:p++;
        if(p >= n)break;
        m = p;
    }
    int k = 0;
    n--;
    for(i = 0;i <= n;i++)Rank[sa[i]] = i;
    for(i = 0;i < n;i++)
    {
        if(k)k--;
        j = sa[Rank[i]-1];
        while(r[i+k] == r[j+k])k++;
        height[Rank[i]] = k;
    }
}

struct node{
    int num,id;
}in[maxn];

bool cmp1(node a,node b){
    return a.num<b.num;
}

int main(){
    scanf("%d",&cas);
    for(int t=0;t<cas;t++){
        scanf("%s",str);
        n=strlen(str);
        for(int i=0;i<=n;i++)r[i]=str[i];
        get_sa(n,129);
        int ans=0;
        for(int i=1;i<=n;i++){
            int cnt=n-sa[i];
            cnt-=height[i];
            ans+=cnt;
        }
        printf("%d\n",ans);
    }

    return 0;
}
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值