POJ_n-gram串频统计

该博客介绍了在文本分析中n-gram串频统计的应用,通过统计字符串中相邻n个字符的出现频率,找出最高频度的子串。内容包括如何计算长度为n的子串频度,以及在最高频度相同时,如何依据首次出现顺序输出这些子串。当最高频度不超过1时,输出'NO'。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

总时间限制:
1000ms
内存限制:
65536kB
描述

在文本分析中常用到n-gram串频统计方法,即,统计相邻的n个单元(如单词、汉字、或者字符)在整个文本中出现的频率。假设有一个字符串,请以字符为单位,按n-gram方法统计每个长度为 n 的子串出现的频度,并输出最高频度以及频度最高的子串。所给的字符串只包含大小写字母,长度不多于500个字符,且 1 < n < 5。

如果有多个子串频度最高,则根据其在序列中第一次出现的次序依次输出,每行输出一个,如果最高频度不大于1,则输出NO。

输入
第一行为n;
第二行为字符串。
输出
输出最高频度以及频度最高的所有子串。若最高频度不大于1,只输出一行NO。
样例输入
3
abcdefabcd
样例输出
2
abc
bcd
提示
样例中,所有的3-gram是:abc,bcd,cde,def,efa,fab,abc,bcd。最后面的cd不足以形成3-gram,则不考虑。这样,abc 和 bcd 都出现了2次,其余的只出现了1次。
来源
元培-From Whf

思路:在比较的过程中不断把未出现的子串加入数组,出现的子串频次加一

#include<iostream>
#include<cstdio>
#include<cstring>
#include<string>
#include<string.h>
#include<queue>
using namespace std;
int str[30];
char buf[30][80];
int main() {
   
	int n;
	scanf("%d", &n);
	string s
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值