[哈希表] n-gram串频统计

n-gram串频统计

题目描述

在文本分析中常用到n-gram串频统计方法,即,统计相邻的n 个单元(如单词、汉字、或者字符)在整个文本中出现的频率。假设有一个字符串,请以字符为单位按n-gram 统计长度为 n 的子串出现的频度,并输出最高频度以及频度最高的子串。设定所给的字符串不多于500个字符,且 1 < n <5。 如果有多个子串频度最高,则根据其在序列中第一次出现的次序输出多个,每行输出一个,如果最高频度不大于1,则输出 NO
例如,n=3,所给的串是:abcdefabcd,
则,所有的 3-gram是:abc,bcd,cde,def,efa,fab,abc,bcd。最后面的cd不足以形成3-gram,则不考虑。这样,abc 和 bcd 都出现了2次,其余的只出现了1次,于是,输出结果应该是:
2
abc
bcd

关于输入

第一行为n
第二行为字符串

关于输出

输出最高频度以及频度最高的所有子串。

例子输入
3
abcdefabcd
例子输出
2
abc
bcd
解题分析

本题是一个统计计数的问题,考虑到这一点,我们可以使用unordered_map即哈希表来加快处理速度,此外使用了substr函数来操作。

代码实现
#include <iostream>
#include <string>
#include <unordered_map>
using namespace std;

int main() {
    int n;
    cin >> n;
    cin.ignore();
    string s;
    getline(cin, s);
    
    unordered_map<string, int> frequency_map; // 创建一个存储子串频率的哈希映射

    int max_frequency = 0; // 用于跟踪最大频率

    // 遍历字符串 s 中的所有可能子串
    for (int i = 0; i <= s.size() - n; i++) {
        string sub = s.substr(i, n); // 提取当前子串

        frequency_map[sub]++; // 增加当前子串在哈希映射中的频率

        // 如果当前子串的频率大于最大频率,更新最大频率
        if (frequency_map[sub] > max_frequency) {
            max_frequency = frequency_map[sub];
        }
    }

    // 如果最大频率小于等于1,输出 "NO",否则输出最大频率
    if (max_frequency <= 1) {
        cout << "NO" << endl;
        return 0;
    } else {
        cout << max_frequency << endl;
    }

    // 再次遍历字符串 s,输出所有具有最大频率的子串
    for (int i = 0; i <= s.size() - n; i++) {
        string sub = s.substr(i, n);

        if (frequency_map[sub] == max_frequency) {
            cout << sub << endl;
            frequency_map[sub] = 0; // 将已输出的子串的频率设为0,以避免重复输出
        }
    }

    return 0;
}

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值