失恋的小 T（后缀数组）

原创于 2017-05-03 11:59:21 发布 · 899 阅读

CC 4.0 BY-SA版权

失恋的小 T

时间限制: 1 Sec 内存限制: 128 MB
提交: 174 解决: 75
[ 提交][ 状态][ 讨论版]

题目描述

小 T 最近失恋了，开始怀疑人生和爱情，他想知道在这世界中去伪存真后还剩多少。
小 T 在网上拿到了代表大千世界的长字符串，删掉了所有换行空格和标点符号，只剩下了小写字母。
现在字符串中有好多重复的子串，相同子串里只有一个是 Real 的。
为了让小 T 走出失恋，你一定要告诉他这个世界上 Real 的东西有多少。
（子串：串中任意个连续的字符组成的子序列称为该串的子串）

输入

包含 100 组输入，每组为一行字符串，只包含小写字母，长度 1-5000。

输出

输出 100 行，每行一个整数，对应输入的答案。

样例输入

aaba

样例输出

提示

来源

[ 提交][ 状态]

题意简化后是：给你一个字符串，问这个字符串有多少个不同的字串，这道题第一眼看暴力可做，哈希可做，字典树可做，所以很容易马上试一发，但是仔细算算复杂度和内存是过不了的。首先想到的是字典树，把所有的字串插入到字典树中，最后输出一共有多少树的节点即可，但是这样会超内存。然后想到了字典树的左儿子右兄弟表示法，可以节省内存，然而这样每次查找儿子的时候需要遍历一遍儿子链表，导致 TLE。然后想到了哈希，这样就不会超时了，求出哈希表来之后，只有 n2 的复杂度，然而这样塞进一个 set 里面也会超时。于是想到了先放进 vector 再排序去重，可以减少一定时间，然而这样 vector 就存不下了，MLE。直到最后才想到了后缀数组，知道了后缀串字典序排序，求出 height 数组来之后，就可以知道每个后缀与前一个后缀的最长公共前缀。这样最后统计求和一下就可以了。需要注意刘汝佳的模板使用的时候字符串后面需要补’ $’ 后缀数组也算是字符串处理中的神器了，经常和 RMQ 结合使用，建议大家学会。

应该算是比较裸的后缀数组的题目，子串就是所有后缀的所有前缀，基于这个思想，考虑后缀数组得height数组，每两个排名相邻得后缀得最长公共前缀，两个后缀得差就是中间得一段字符串咯，他出现过的话，个数就是公共前缀长度，比如aabab，ab和abab两个后缀，公共部分是ab，代表子串ab和a是重复的，最后得ans就是所有子串-height里面得和。（如果是ababab那么ababab和abab和ab说白了就是a ab aba abab前两个后缀得前缀够出得子串中这四个是重复的，ab和abab是a ab是重复的，用不用算ababab和ab呢，不用，因为已经剪掉了后面出现得，不能减两次甚至更多）

#include<iostream>
#include<stdio.h>
#include<math.h>
#include <string>
#include<string.h>
#include<map>
#include<queue>
#include<set>
#include<utility>
#include<vector>
#include<algorithm>
#include<stdlib.h>
using namespace std;
#define maxn 200100
#define maxm 200005
#define rd(x) scanf("%d", &x)
#define rd2(x, y) scanf("%d%d", &x, &y)
#define mod 1000000007
const int MAXN = 20010;
int t1[MAXN],t2[MAXN],c[MAXN];
bool cmp(int *r, int a,int b,int l){
    return r[a] ==r[b] && r[a+l] == r[b+l];
}
void da(int str[], int sa[], int rankk[], int height[], int n, int m){
    n++;
    int i,j,p,*x =t1,*y=t2;
    for(i =0; i <m; i++) c[i] =0;
    for(i = 0; i <n; i++) c[x[i] =str[i]]++;
    for(i =1; i < m; i++) c[i] += c[i-1];
    for(i = n-1;i >= 0; i--) sa[--c[x[i]]] = i;
    for(j =1; j <= n; j <<=1){
        p =0;
        for(i = n-j; i <n; i++) y[p++] = i;
        for(i = 0; i < n; i++) if(sa[i] >= j) y[p++] = sa[i] -j;
 
        for(i = 0; i < m; i++) c[i] =0;
        for(i = 0 ;i < n; i++) c[x[y[i]]]++;
        for(i = 1; i < m; i++) c[i] += c[i-1];
        for(i = n-1; i >=0; i--) sa[--c[x[y[i]]]] = y[i];
        swap(x,y);
        p =1; x[sa[0]] =0;
        for(int i = 1; i < n; i++) x[sa[i]] = cmp(y, sa[i-1], sa[i], j)?p-1:p++;
        if(p >= n) break;
        m =p;
    }
    int k =0;
    n--;
    for(i = 0; i <= n;i++) rankk[sa[i]] = i;
    for(i = 0; i < n;i++){
        if(k) k--;
        j =sa[rankk[i]-1];
        while(str[i+k] == str[j+k]) k++;
        height[rankk[i]] = k;
    }
}
int rankk[MAXN],height[MAXN];
char str[MAXN];
int r[MAXN],sa[MAXN];
int main()
{
    int t = 100;
    while(~scanf("%s", str)){
        //scanf("%s", str);
        int len = strlen(str);
        //int n = 2*len +1;
        for(int i =0; i < len ;i++) r[i] = str[i];
        //for(int i =0; i < len; i++) r[len + 1 + i] = str[len -1 -i];
        r[len] =0;
        r[len+1] = 0;
        da(r, sa, rankk, height,  len , 'z' + 1);
        long long int res = len - sa[1];
        for(int i= 2 ;i <= len; i++){
            res = res + len - sa[i] -height[i];
        }
        printf("%lld\n", res);
    }
    return 0;
}