|算法讨论|后缀数组 学习笔记

模板及讲解
解决字符串的有力工具。
直接上代码,注释讲解(此题为uoj #35)

#include<cstdio>
#include<cstring>
#include<algorithm>
#include<vector>
#define ms(i, j) memset(i, j, sizeof i)
#define FN2 "uoj35" 
using namespace std;

const int MAXN = 1000000 + 5;

char ch[MAXN];
int a[MAXN], n, m;
//ch为输入字符串,a为处理后的整数原串 
int SA[MAXN], rk[MAXN], tp[MAXN], tax[MAXN], height[MAXN];
/*
    SA[i]: 排名第i的后缀的位置(下标是后缀排名)
    rk[i]: 第i个后缀的排名
    tp[i]: 排名为i的第二关键字的第一关键字的位置 (下标是第二关键字排名)
    tax[i]:基数排序的桶
    height[i]: 排名为i, i-1后缀的最长公共前缀 
*/
bool cmp(int *f, int i, int k) {return f[SA[i-1]]==f[SA[i]]&&f[SA[i-1]+k]==f[SA[i]+k];} //要判断两个字符串是否完全相等 
void build() {//构造后缀数组 
    int i, p;
    for (int i=0;i<m;i++) tax[i] = 0;
    for (int i=0;i<n;i++) tax[rk[i]=a[i]]++;
    for (int i=0;i<m;i++) tax[i] += tax[i-1];
    for (int i=n-1;i>=0;i--) SA[--tax[rk[i]]] = i;//基数排序排第一轮

    for (int k=1;k<=n;k*=2) {
        p = 0;
        for (int i=n-k;i<n;i++) tp[p++] = i;//(n-k)~(n-1)无第二关键字,所以排序应该排在前面
        for (int i=0;i<n;i++) if (SA[i]>=k) tp[p++] = SA[i] - k;
        //只有SA[i]>=k的SA[i]才是第二关键字的位置 
        //从图中可以看出第一关键字和第二关键字的位置相差k,故SA[i] - k 
        for (int i=0;i<m;i++) tax[i] = 0;
        for (int i=0;i<n;i++) tax[rk[tp[i]]]++;//x[tp[i]]相等于排名第i的第二关键字的第一关键字的排名 
        for (int i=1;i<m;i++) tax[i] += tax[i-1];
        for (int i=n-1;i>=0;i--) SA[--tax[rk[tp[i]]]] = tp[i];//保证了第一关键字的顺序再排第二关键字 
        //基数排序第一关键字(rank[i]的数值)和第二关键字(tp[i]的下标) 
        swap(rk, tp);//此时tp没用,暂存上一轮rank的值
        p = 0, rk[SA[0]] = 0;//sa[0]一定是添加的字符0, 排名一定是0
        for (int i=1;i<n;i++) rk[SA[i]] = cmp(tp, i, k) ? p : ++p;
        //算排名第i的数的rank,按sa顺序能够保证rank的正确性,但是要cmp判断与上一个字符串相等的情况 
        if (++p>=n) break;//剪枝,已经没有重复元素 
        m = p; 
    }
}
void getH() {//算height 
    int i, j, k = 0;//k是比i-1前一名的后缀
    for (int i=0;i<n;i++) {//H[0], H[1], H[2] ...的顺序计算 
        if (k) k--;//从k-1开始比较 ,运用结论H[i]>=H[i-1]-1, 最长公共前缀的长度至少是k-1(k = H[i-1])
        j = SA[rk[i]-1]; //前一名的后缀位置 
        while(ch[i+k] == ch[j+k]) k++; //往后比较 
        height[rk[i]] = k;  //更新答案 
    }
}
void init() {
    int i;
    n = strlen(ch) + 1, m = 128;
    for (int i=0;i<n-1;i++) a[i] = ch[i];//处理原字符串 
    a[n - 1] = 0;//补末尾的0 
}
void solve() {
    int i;
    build(); 
    getH();
    for (int i=1;i<n;i++) printf("%d ", SA[i]+1);//输出范围1~n-1 
    printf("\n");
    for (int i=2;i<n;i++) printf("%d ", height[i]);
}
int main() {
    scanf("%s", ch), init(), solve();
    return 0;
}

常见题型:
1、直接运用后缀数组
Q:给出一个字符串,询问该字符串的后缀排名/排第i为后缀位置/相邻两个后缀最长公共前缀。
解:运用后缀数组处理的 rk,SA,height 即可解决。
例题: uoj #35
2、求不同子串的个数
Q:给出一个字符串,求出该字符串中不相同子串的总个数。
解:转化为求不同前缀个数问题,每个 k 对答案的贡献为nSA[k]+1height[k]
例题:spoj 694
3、划分翻转字典序最小问题(多次求后缀数组)
Q:给出一个数组,把数组分成3份,每一份都要翻转,输出字典序最小的结果
解:运用后缀数组的字典序排序分解问题,多次求后缀数组
例题:poj3581
4、求两个字符串的最长公共子串
Q:给出两个字符串,求这两个字符串的最长公共子串。
解:可以连接两个字符串,中间插入 $ ,然后构造后缀数组,用 height 数组解决。
例题:poj 2774
5、求两个字符串长度不小于k的公共子串的个数(分组)
Q:给出两个字符串,求这两个字符串长度不小于k的公共子串的个数。
解:
例题:poj3415
6、求多个字符串的公共子串(二分+分组)
Q:给出多个字符串,求这几个字符串的公共子串。
解:用不同的符号连接每个字符串,然后二分公共子串的长度,在 height 数组中看有没有连续 n height(分组)大于公共子串的长度进行判断
例题:Hdu 2328

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值