统计文本中每个单词出现的频率（附C++完整程序）

最新推荐文章于 2024-02-01 16:06:54 发布

无鞋童鞋

最新推荐文章于 2024-02-01 16:06:54 发布

阅读量1.6w

点赞数 16

分类专栏： IT笔试/面试题 C/C++ 文章标签：统计单词出现频率文本读入

本文链接：https://blog.csdn.net/fx677588/article/details/72643302

版权

C/C++ 同时被 2 个专栏收录

54 篇文章 3 订阅

订阅专栏

IT笔试/面试题

29 篇文章 1 订阅

订阅专栏

1、简介
　　文本读入和统计英文单词出现的频率是面试中经常会被提及的一个问题。题目看着很简单，但是考到了很多的知识点，需要你对C++语言很全面的掌握。
　　首先我们看到题目可以想到将其分为两个模块：文本单词的读入和统计英文单词出现频率。那怎样将文本完整的读入缓存字符串数组或者string类对象中自然是首要任务；其次如何处理符号位的影响；最后如何统计单词出现频率。
　1.1、文本读入　
　　文本单词的读入最常想到的是fopen、fread、fclose内置函数接口，但是读入的文本需要存储在字符串数组中。另外C++标准库实际上有定义类似流输入输出iostream库类似的文本流读入操作。fstream头文件中有定义文本流操作的类。我们只需要实例化一个fstream类对象，通过类对象完成复杂的文本处理工作，并且获取文本可以保存在string字符串类对象中。
　　文本读入程序如下：

    #include<fstream>
    #include<string>
    string strFile, tmp;
    ifstream file("1.txt");      //读取当前文件夹下1.txt文件
    while(getline(file, strFile))//直到文件结尾，依次逐行读入文本
    {
        strFile.append(tmp);    //每次读入一行附加到strFile结尾
        tmp.clear();            //记得清除，否则上一次读入比这次文本长，不会完全覆盖而出错
    }

　1.2、排除符号位影响
　　这里我简化了操作，将整个文本中符号位都去除或者替换成了空格。我们判断哪个字符是否是符号位，主要借助了标准库cctype中的ispunct()函数接口，如果某个字符是符号位(‘,’，’.’ ，’！’等等)就返回True。程序如下：　

    #include<cctype>
    #include<string>
    for (int i = 0; i<strFile.length(); i++)
    {
        if (ispunct(strFile[i]))   
            strFile[i] = ' '; //符号位替换成为空格
    }

　1.3、流读入每个单词
　　当我们获取得到一大串文本句子存储在了string对象中，如何一个一个单词处理我们就需要借助字符串流处理的功能。类似cin和cout，因为前面文本句子经过符号位去除操作后，所有单词是相互空格隔开的，我们只需要遇到空格读入一个单词即可。sstream头文件定义的stringstream类正是干这个流读入的活的。它实例化的对象可以依次流操作读出或者读入一个单词，直到句子结束。程序如下：

    #include<sstream> 
    stringstream ss(strFile); //先将文本句子载入流中，类似控制端键盘输入一段话
    string strTmp;
    while (ss >> strTmp)      //依次从流中读入每个单词
    {
     //###  每个word处理程序处
    }

　1.4、英文单词频率统计
　　到这里就是我们程序的重点了，如果前面的程序是考察你对C++语言使用是否扎实的考察，那么这块就是对你数据结构是否有灵活掌握的了解。
　　如何灵活的记录文本中每个单词出现的频率？最简单的想法当然是数组，但是数组我们需要提前申请一个足够大的内存空间，显然不是一个很好的想法。并且还要返回原文查找每个索引对应的单词到底是哪一个，这就徒增了算法的时间复杂度。所以此处最好的数据结构方法是关联容器，如果你对标准模板库很了解的话可以想到使用基于红黑树的关联容器map或者基于哈希表的unordered_map。由于unordered_map查询和插入的时间复杂度是常数级，比基于红黑树的map对数级还要快，所以这里我们使用键值对记录的unordered_map数据结构。其中键对应单词string，值对应出现的频率int。具体实现如下：

#include<string>
#include<iterator>
#include<unordered_map>

using namespace std;

unordered_map<string, int> strMap;  //保存的结果
void countWord(stringstream &ss)
{
    //依次读入单词
    string strTmp;
    while (ss >> strTmp)
    {
        unordered_map<string, int>::iterator it = strMap.find(strTmp);
        if (it == strMap.end()) //strMap中如果不存在当前单词则插入一个新键值对，出现频率为1
        {
            strMap.insert(unordered_map<string, int>::value_type(strTmp, 1));
        }
        else                   //如果存在则出现频率+1
            strMap[strTmp]++;
    }
}

2、整个实现程序

#include<iostream>
#include<sstream>
#include<fstream>
#include<string>
#include<iterator>
#include<cctype>
#include<unordered_map>
using namespace std;

unordered_map<string, int> strMap;  //保存的结果
/***从字符串流中依次读入单词记录出现频率***/
void countWord(stringstream &ss)
{
    //依次读入单词
    string strTmp;
    while (ss >> strTmp)
    {
        unordered_map<string, int>::iterator it = strMap.find(strTmp);
        if (it == strMap.end())
        {
            strMap.insert(unordered_map<string, int>::value_type(strTmp, 1));
        }
        else
            strMap[strTmp]++;
    }
}

int main()
{
    //读入文档
    string strFile, tmp;
    fstream file("1.txt");
    while(getline(file, strFile))  //!file.eof()
    {
        strFile.append(tmp);
        tmp.clear();
    }   
    //去除符号
    for (int i = 0; i<strFile.length(); i++)
    {
        if (ispunct(strFile[i]))   
            strFile[i] = ' ';
    }
    //统计字符
    stringstream ss(strFile);
    countWord(ss);    
    //打印结果
    unordered_map<string,int>::const_iterator it;
    for (it = strMap.begin(); it != strMap.end(); ++it)
        cout << it->first << "=" << it->second << endl;
    cout << endl;
    return 0;
}

　　个人学习记录，由于能力和时间有限，如果有错误望读者纠正，谢谢！
　　转载请注明出处：http://blog.csdn.net/FX677588/article/details/72643302

无鞋童鞋

关注

16
点赞
踩
135

收藏

觉得还不错? 一键收藏
3
评论
统计文本中每个单词出现的频率（附C++完整程序）

文本读入和统计英文单词出现的频率是面试中经常会被提及的一个问题。题目看着很简单，但是考到了很多的知识点，需要你对C++语言很全面的掌握。　　首先我们看到题目可以想到将其分为两个模块：文本单词的读入和统计英文单词出现频率。那怎样将文本完整的读入缓存字符串数组或者string类对象中自然是首要任务；其次如何处理符号位的影响；最后如何统计单词出现频率。
复制链接

扫一扫