后缀数组小结

最新推荐文章于 2022-12-11 10:29:02 发布

meopass

最新推荐文章于 2022-12-11 10:29:02 发布

阅读量365

点赞数

分类专栏：总结文章标签：总结

本文链接：https://blog.csdn.net/meopass/article/details/77963061

版权

总结专栏收录该内容

1 篇文章 0 订阅

订阅专栏

其实下定决心刷后缀数组还是因为沈阳网赛第一题从开始卡到结尾…~~最后发现了板子错了~~。
觉得自己的后缀数组已经忘得差不多了，重新拿出来刷一刷。
参考资料：国家集训队2009论文集后缀数组——处理字符
后缀数组

这里顺便一提，之前我一直使用的是 $O(nlogn)$ 的倍增模板，我原以为已经够用了，结果在多校和网络赛频繁被卡，然而DC3的常数也非常大，对此我感到非常苦恼啊，直到我发现了后缀数组的SAIS构造法。~~惊了!~~。

排名从 $1到n$ , 数组下标从 $0到len-1$ 。
献祭出模板。

const int N = 1e6+10;
int n;

namespace SA {
    int sa[N], rank[N], height[N], s[N<<1], t[N<<1], p[N], cnt[N], cur[N];
    int MIN[N][30];
    #define pushS(x) sa[cur[s[x]]--] = x
    #define pushL(x) sa[cur[s[x]]++] = x
    #define inducedSort(v) fill_n(sa, n, -1); fill_n(cnt, m, 0);                  \
        for (int i = 0; i < n; i++) cnt[s[i]]++;                                  \
        for (int i = 1; i < m; i++) cnt[i] += cnt[i-1];                           \
        for (int i = 0; i < m; i++) cur[i] = cnt[i]-1;                            \
        for (int i = n1-1; ~i; i--) pushS(v[i]);                                  \
        for (int i = 1; i < m; i++) cur[i] = cnt[i-1];                            \
        for (int i = 0; i < n; i++) if (sa[i] > 0 &&  t[sa[i]-1]) pushL(sa[i]-1); \
        for (int i = 0; i < m; i++) cur[i] = cnt[i]-1;                            \
        for (int i = n-1;  ~i; i--) if (sa[i] > 0 && !t[sa[i]-1]) pushS(sa[i]-1)
    void sais(int n, int m, int *s, int *t, int *p) {
        int n1 = t[n-1] = 0, ch = rank[0] = -1, *s1 = s+n;
        for (int i = n-2; ~i; i--) t[i] = s[i] == s[i+1] ? t[i+1] : s[i] > s[i+1];
        for (int i = 1; i < n; i++) rank[i] = t[i-1] && !t[i] ? (p[n1] = i, n1++) : -1;
        inducedSort(p);
        for (int i = 0, x, y; i < n; i++) if (~(x = rank[sa[i]])) {
            if (ch < 1 || p[x+1] - p[x] != p[y+1] - p[y]) ch++;
            else for (int j = p[x], k = p[y]; j <= p[x+1]; j++, k++)
                if ((s[j]<<1|t[j]) != (s[k]<<1|t[k])) {ch++; break;}
            s1[y = x] = ch;
        }
        if (ch+1 < n1) sais(n1, ch+1, s1, t+n, p+n1);
        else for (int i = 0; i < n1; i++) sa[s1[i]] = i;
        for (int i = 0; i < n1; i++) s1[i] = p[sa[i]];
        inducedSort(s1);
    }
    template<typename T>
    int mapCharToInt(int n, const T *str) {
        int m = *max_element(str, str+n);
        fill_n(rank, m+1, 0);
        for (int i = 0; i < n; i++) rank[str[i]] = 1;
        for (int i = 0; i < m; i++) rank[i+1] += rank[i];
        for (int i = 0; i < n; i++) s[i] = rank[str[i]] - 1;
        return rank[m];
    }
    template<typename T>
    void suffixArray(int n, const T *str) {
        int m = mapCharToInt(++n, str);
        sais(n, m, s, t, p);
        for (int i = 0; i < n; i++) rank[sa[i]] = i;
        for (int i = 0, h = height[0] = 0; i < n-1; i++) {
            int j = sa[rank[i]-1];
            while (i+h < n && j+h < n && s[i+h] == s[j+h]) h++;
            if (height[rank[i]] = h) h--;
        }
    }
    void RMQ_init(){
        for(int i=0; i<n; i++) MIN[i][0] = height[i+1];
        for(int j=1; (1<<j)<=n; j++){
            for(int i=0; i+(1<<j)<=n; i++){
                MIN[i][j] = min(MIN[i][j-1], MIN[i+(1<<(j-1))][j-1]);
            }
        }
    }
    int RMQ(int L, int R){
        int k = 0;
        while((1<<(k+1)) <= R-L+1) k++;
        return min(MIN[L][k], MIN[R-(1<<k)+1][k]);
    }
    int LCP(int i, int j){
        if(rank[i] > rank[j]) swap(i, j);
        return RMQ(rank[i], rank[j]-1);
    }
        void init(char *str){
        str[n] = 0;
        suffixArray(n, str);
        RMQ_init();
    }
};

单字符串问题

1.可重叠最长重复子串
所有height的最大值

2.不可重叠最长重复子串
POJ1743

3.可重叠的至少出现t次的最长重复子串(poj3261)
POJ3261

4.不相同的子串的个数(spoj694)
SPOJ694

5.最长回文子串
51NOD 1089

连续重复串问题

连续重复串：如果一个字符串L由字符串S重复R次得到，那么L是一个连续重复串，R是这个字符串的重复次数。

1.连续重复串的最大重复次数
POJ2406

2.重复次数最多的连续重复子串
POJ3693

两个字符串的相关问题

1.最长公共子串
POJ2774

2.长度不小于k的公共子串的个数
POJ3415

多个字符串的相关问题

1.出现在不少于k个字符串的最长子串
POJ3294

2.每个字符串中至少出现两次，且不重叠的最长子串
SPOJ220

3.出现或反转后出现在每个字符串中的最长字符串
POJ1226

一些感慨：我第一次看见这篇论文差不多也是去年这个时候，匆匆忙忙的学会了套模板，做了几个水题就去打区域赛了，结果惨不忍睹~~被揍的鼻青眼肿~~。当时的自己什么都学了，但没有一个学的扎实一点的知识点。其实这篇论文的东西真的非常少，但在一年前的我看来确实是晦涩难懂。于是我的潜意识一直不想碰这个东西~~直到前两天的沈阳网赛~~，现在看来也只是因为自己太浮躁了。

meopass

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
后缀数组小结

其实下定决心刷后缀数组还是因为沈阳王赛第一题从开始卡到结尾…最后发现了板子错了。觉得自己的后缀数组已经忘得差不多了，重新拿出来刷一刷。参考资料：国家集训队2009论文集后缀数组——处理字符后缀数组这里顺便一提，之前我一直使用的是O(nlogn)O(nlogn)的倍增模板，我原以为已经够用了，结果在多校和网络赛频繁被卡，然而DC3的常数也非常大，对此我感到非常苦恼啊，直到我发现了后缀数组的
复制链接

扫一扫

专栏目录