后缀数组

定义

1.sa[i]就表示排名为i的后缀的起始位置的下标
2.rk[i]就表示起始位置的下标为i的后缀的排名
3.LCP(i,j)为suff(sa[i])与suff(sa[j])的最长公共前缀

4.height[i]=LCP(i,i-1);
为什么要有LCP呢? 🤔(后面会说)

定理

显而易见的
1.LCP(i,j)=LCP(j,i);
2.LCP(i,i)=len(sa[i])=n-sa[i]+1;

其他定理的证明:
在这里插入图片描述
在这里插入图片描述

SA基本过程

目的是求sa[i]和height[i].
1.快排(n log n)每个后缀,但是这是字符串,所以比较任意两个后缀的复杂度其实是O(n),这样一来就是接近O(n^2 log n)的复杂度,数据大了肯定是不行的,所以我们这里有两个优化。
2.倍增log(n)在这里插入图片描述
3.基数排序O(n)
求height[i]证明实在繁琐我就不细说了😒
总体复杂的O(n)log(n)

using namespace std;
typedef long long ll;
const int N=1e6+5;
int n,p,q,k,m;
int v[N],height[N];
int sa[2][N],rk[2][N];
char a[N];
///sa[p][i]表示排名为i的起始下标
///rk[p][i]表示起始下标为i的排名
///LCP(i,j)=suff(sa[i]),suff(sa[j]);
///height[i]表示LCP(i,i-1);
struct SA {
    void calsa(int sa[N],int rk[N],int SA[N],int RK[N]) {
        for(int i=1; i<=n; i++)v[rk[sa[i]]]=i;
        for(int i=n; i; i--)
            if(sa[i]>k)
                SA[v[rk[sa[i]-k]]--]=sa[i]-k;
        for(int i=n-k+1; i<=n; i++)SA[v[rk[i]]--]=i;
        for(int i=1; i<=n; i++)
            RK[SA[i]]=RK[SA[i-1]]+(rk[SA[i-1]]!=rk[SA[i]]||rk[SA[i]+k]!=rk[SA[i-1]+k]);
    }
    void getsa() {
        memset(v,0,sizeof(v));
        memset(rk,0,sizeof(rk));
        p=0,q=1;
        for(int i=1; i<=n; i++)v[a[i]]++;
        for(int i=1; i<=m; i++)v[i]+=v[i-1];
        for(int i=1; i<=n; i++)
            sa[p][v[a[i]]--]=i;
        for(int i=1; i<=n; i++)
            rk[p][sa[p][i]]=rk[p][sa[p][i-1]]+(a[sa[p][i-1]]!=a[sa[p][i]]);
        for(k=1; k<n; k<<=1,swap(p,q))
            calsa(sa[p],rk[p],sa[q],rk[q]);
    }
    void geth() {
        k=0;
        for(int i=1; i<=n; i++)
            if(rk[p][i]==1)height[rk[p][i]]=0;
            else {
                int j=sa[p][rk[p][i]-1];
                while(a[i+k]==a[j+k])k++;
                height[rk[p][i]]=k;
                if(k>0)k--;
            }
    }
    void init() {
        m=305;
        getsa();
        geth();
    }
} SA;

实例(子串=后缀的前缀)

 1.求不同子串个数 
 solution:考虑每个后缀贡献的前缀个数,
 即排名为i的后缀的贡献为n-sa[i]+1-height[i],
 用所有的前缀个数,减去与上一个排名的相同前缀个数。
2.给定 n 个值域在 [0,1000000] 的整数,
请求出最长的出现了至少 k 次的子串。
solution1:RMQ+SA
子串=后缀的前缀.
首先考虑:最长的子串的子串一定也出现了至少K次
那么我们就可以二分len,
每次检查长度=len的子串是否出现了K次。
height[i]=lcp(i,i-1)那么height[i]>=len不就
代表后缀的前缀出现了两次吗?
首先我们幻想一下height[i]数组的大小趋势大致是这个样子
大中小大小大中小,分段有序
那么我们要查询相邻的K段最小的那个height[i]取最大值就是答案

solution2:二分+SA
基于上一个solution,我们考虑这个check函数怎么写,
我们记录一段区间>=len的数量,大于k-1就行。

code:

bool judge(int len) {
    int cnt=0;
    for(int i=1; i<=n; i++) {
        if(height[i]<len)
            cnt=0;
        else cnt++;
        if(cnt>=K-1)return 1;
    }
    return 0;
}
void solve1() {
    int l=1,r=n,ans=0;
    while(l<=r) {
        int mid=(l+r)/2;
        if(judge(mid))
            ans=mid,l=mid+1;
        else
            r=mid-1;
    }
    cout<<ans<<endl;
}
void init() {
    for(int i=1; i<=n; i++) {
        dp[i][0]=height[i];
    }
    int up=log2(n);
    for(int j=1; j<=up; j++) {
        for(int i=1; i+(1<<j)-1<=n; i++) {
            dp[i][j]=min(dp[i][j-1],dp[i+(1<<(j-1))][j-1]);
        }
    }
}
int query(int x,int y) {
    int k=log2(y-x+1);
    return min(dp[x][k],dp[y-(1<<k)+1][k]);
}
void solve2() {
    init();
    int ans=0;
    for(int i=1; i<=n; i++) {
        ans=max(ans,query(i,i+K-1-1));
    }
    cout<<ans<<endl;
}
int main() {
    cin>>n>>K;
    for(int i=1; i<=n; i++)
        scanf("%d",&a[i]),d[i]=a[i];
    sort(d+1,d+n+1);
    int res=unique(d+1,d+n+1)-d-1;
    for(int i=1; i<=n; i++)
        a[i]=lower_bound(d+1,d+res+1,a[i])-d;
    SA.init();
    solve1();
    solve2();
}
3.求最长不重叠相似子串
相似子串是指:一个子串加上一个数字变成另一个字串
solution:变成相同子串我们会求,但是相似咋办呢?
我们可以做一个差分数组,求这个数组的SA。
跟上题二分差不多,记录连续区间的下标最小值和最大值
就能判断是否是重叠了。
bool judge(int len) {
    int mi=sa[p][1],ma=sa[p][1];
    for(int i=2; i<=n; i++) {
        if(height[i]<len) {
            mi=ma=sa[p][i];
        } else {
            mi=min(mi,sa[p][i]);
            ma=max(ma,sa[p][i]);
            if(ma-mi>=len)return 1;
        }
    }
    return 0;
}
void solve() {
    int l=0,r=n/2,ans=0;
    while(l<=r) {
        int mid=(l+r)/2;
        if(judge(mid))ans=mid,l=mid+1;
        else r=mid-1;
    }
    if(ans+1<=4)
        ans=-1;
    printf("%d\n",ans+1);
}
int main() {
    while(scanf("%d",&n)) {
        if(n==0)break;
        for(int i=1; i<=n; i++)
            scanf("%d",&a[i]);
        n--;
        for(int i=1; i<=n; i++)
            a[i]=a[i+1]-a[i]+100;
        a[n+1]=0;
        SA.init();
        solve();
    }
}
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值