失恋的小 T(后缀数组)


失恋的小 T

时间限制: 1 Sec   内存限制: 128 MB
提交: 174   解决: 75
[ 提交][ 状态][ 讨论版]

题目描述

小 T 最近失恋了,开始怀疑人生和爱情,他想知道在这世界中去伪存真后还剩多少。 
小 T 在网上拿到了代表大千世界的长字符串,删掉了所有换行空格和标点符号,只剩下了小写字母。 
现在字符串中有好多重复的子串,相同子串里只有一个是 Real 的。 
为了让小 T 走出失恋,你一定要告诉他这个世界上 Real 的东西有多少。 
(子串:串中任意个连续的字符组成的子序列称为该串的子串) 

输入

包含 100 组输入,每组为一行字符串,只包含小写字母,长度 1-5000。 

输出

输出 100 行,每行一个整数,对应输入的答案。 

样例输入

aaba

样例输出

8

提示

来源

[ 提交][ 状态]

题意简化后是:给你一个字符串,问这个字符串有多少个不同的字串,这道题第一眼看暴力可做,哈希可做,字典树可做,所以很容易马上试一发,但是仔细算算复杂度和内存是过不了的。 首先想到的是字典树,把所有的字串插入到字典树中,最后输出一共有多少树的节点即可,但是这样会超内存。然后想到了字典树的左儿子右兄弟表示法,可以节省内存,然而这样每次查找儿子的时候需要遍历一遍儿子链表,导致 TLE。 然后想到了哈希,这样就不会超时了,求出哈希表来之后,只有 n2 的复杂度,然而这样塞进一个 set 里面也会超时。于是想到了先放进 vector 再排序去重,可以减少一定时间,然而这样 vector 就存不下了,MLE。 直到最后才想到了后缀数组,知道了后缀串字典序排序,求出 height 数组来之后,就可以知道每个后缀与前一个后缀的最长公共前缀。这样最后统计求和一下就可以了。需要注意刘汝佳的模板使用的时候字符串后面需要补’ $’ 后缀数组也算是字符串处理中的神器了,经常和 RMQ 结合使用,建议大家学会。

应该算是比较裸的后缀数组的题目,子串就是所有后缀的所有前缀,基于这个思想,考虑后缀数组得height数组,每两个排名相邻得后缀得最长公共前缀,两个后缀得差就是中间得一段字符串咯,他出现过的话,个数就是公共前缀长度,比如aabab,ab和abab两个后缀,公共部分是ab,代表子串ab和a是重复的,最后得ans就是所有子串-height里面得和。(如果是ababab那么ababab和abab和ab说白了就是a ab aba abab前两个后缀得前缀够出得子串中这四个是重复的,ab和abab是a ab是重复的,用不用算ababab和ab呢,不用,因为已经剪掉了后面出现得,不能减两次甚至更多)

#include<iostream>
#include<stdio.h>
#include<math.h>
#include <string>
#include<string.h>
#include<map>
#include<queue>
#include<set>
#include<utility>
#include<vector>
#include<algorithm>
#include<stdlib.h>
using namespace std;
#define maxn 200100
#define maxm 200005
#define rd(x) scanf("%d", &x)
#define rd2(x, y) scanf("%d%d", &x, &y)
#define mod 1000000007
const int MAXN = 20010;
int t1[MAXN],t2[MAXN],c[MAXN];
bool cmp(int *r, int a,int b,int l){
    return r[a] ==r[b] && r[a+l] == r[b+l];
}
void da(int str[], int sa[], int rankk[], int height[], int n, int m){
    n++;
    int i,j,p,*x =t1,*y=t2;
    for(i =0; i <m; i++) c[i] =0;
    for(i = 0; i <n; i++) c[x[i] =str[i]]++;
    for(i =1; i < m; i++) c[i] += c[i-1];
    for(i = n-1;i >= 0; i--) sa[--c[x[i]]] = i;
    for(j =1; j <= n; j <<=1){
        p =0;
        for(i = n-j; i <n; i++) y[p++] = i;
        for(i = 0; i < n; i++) if(sa[i] >= j) y[p++] = sa[i] -j;
 
        for(i = 0; i < m; i++) c[i] =0;
        for(i = 0 ;i < n; i++) c[x[y[i]]]++;
        for(i = 1; i < m; i++) c[i] += c[i-1];
        for(i = n-1; i >=0; i--) sa[--c[x[y[i]]]] = y[i];
        swap(x,y);
        p =1; x[sa[0]] =0;
        for(int i = 1; i < n; i++) x[sa[i]] = cmp(y, sa[i-1], sa[i], j)?p-1:p++;
        if(p >= n) break;
        m =p;
    }
    int k =0;
    n--;
    for(i = 0; i <= n;i++) rankk[sa[i]] = i;
    for(i = 0; i < n;i++){
        if(k) k--;
        j =sa[rankk[i]-1];
        while(str[i+k] == str[j+k]) k++;
        height[rankk[i]] = k;
    }
}
int rankk[MAXN],height[MAXN];
char str[MAXN];
int r[MAXN],sa[MAXN];
int main()
{
    int t = 100;
    while(~scanf("%s", str)){
        //scanf("%s", str);
        int len = strlen(str);
        //int n = 2*len +1;
        for(int i =0; i < len ;i++) r[i] = str[i];
        //for(int i =0; i < len; i++) r[len + 1 + i] = str[len -1 -i];
        r[len] =0;
        r[len+1] = 0;
        da(r, sa, rankk, height,  len , 'z' + 1);
        long long int res = len - sa[1];
        for(int i= 2 ;i <= len; i++){
            res = res + len - sa[i] -height[i];
        }
        printf("%lld\n", res);
    }
    return 0;
}





Nano-ESG数据资源库的构建基于2023年初至2024年秋季期间采集的逾84万条新闻文本,从中系统提炼出企业环境、社会及治理维度的信息。其构建流程首先依据特定术语在德语与英语新闻平台上检索,初步锁定与德国DAX 40成分股企业相关联的报道。随后借助嵌入技术对文本段落执行去重操作,以降低内容冗余。继而采用GLiNER这一跨语言零样本实体识别系统,排除与目标企业无关的文档。在此基础上,通过GPT-3.5与GPT-4o等大规模语言模型对文本进行双重筛选:一方面判定其与ESG议题的相关性,另一方面生成简明的内容概要。最终环节由GPT-4o模型完成,它对每篇文献进行ESG情感倾向(正面、中性或负面)的判定,并标注所涉及的ESG具体维度,从而形成具备时序特征的ESG情感与维度标注数据集。 该数据集适用于多类企业可持续性研究,例如ESG情感趋势分析、ESG维度细分类别研究,以及企业可持续性事件的时序演变追踪。研究者可利用数据集内提供的新闻摘要、情感标签与维度分类,深入考察企业在不同时期的环境、社会及治理表现。此外,借助Bertopic等主题建模方法,能够从数据中识别出与企业相关的核心ESG议题,并观察这些议题随时间的演进轨迹。该资源以其开放获取特性与连续的时间覆盖,为探究企业可持续性表现的动态变化提供了系统化的数据基础。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI蜗牛之家

你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值