统计文本中每个单词出现的频率(附C++完整程序)

1、简介
  文本读入和统计英文单词出现的频率是面试中经常会被提及的一个问题。题目看着很简单,但是考到了很多的知识点,需要你对C++语言很全面的掌握。
  首先我们看到题目可以想到将其分为两个模块:文本单词的读入和统计英文单词出现频率。那怎样将文本完整的读入缓存字符串数组或者string类对象中自然是首要任务;其次如何处理符号位的影响;最后如何统计单词出现频率。
 1.1、文本读入 
  文本单词的读入最常想到的是fopen、fread、fclose内置函数接口,但是读入的文本需要存储在字符串数组中。另外C++标准库实际上有定义类似流输入输出iostream库类似的文本流读入操作。fstream头文件中有定义文本流操作的类。我们只需要实例化一个fstream类对象,通过类对象完成复杂的文本处理工作,并且获取文本可以保存在string字符串类对象中。
  文本读入程序如下:

    #include<fstream>
    #include<string>
    string strFile, tmp;
    ifstream file("1.txt");      //读取当前文件夹下1.txt文件
    while(getline(file, strFile))//直到文件结尾,依次逐行读入文本
    {
        strFile.append(tmp);    //每次读入一行附加到strFile结尾
        tmp.clear();            //记得清除,否则上一次读入比这次文本长,不会完全覆盖而出错
    }   

 1.2、排除符号位影响
  这里我简化了操作,将整个文本中符号位都去除或者替换成了空格。我们判断哪个字符是否是符号位,主要借助了标准库cctype中的ispunct()函数接口,如果某个字符是符号位(‘,’,’.’ ,’!’等等)就返回True。程序如下: 

    #include<cctype>
    #include<string>
    for (int i = 0; i<strFile.length(); i++)
    {
        if (ispunct(strFile[i]))   
            strFile[i] = ' '; //符号位替换成为空格
    }

 1.3、流读入每个单词
  当我们获取得到一大串文本句子存储在了string对象中,如何一个一个单词处理我们就需要借助字符串流处理的功能。类似cin和cout,因为前面文本句子经过符号位去除操作后,所有单词是相互空格隔开的,我们只需要遇到空格读入一个单词即可。sstream头文件定义的stringstream类正是干这个流读入的活的。它实例化的对象可以依次流操作读出或者读入一个单词,直到句子结束。程序如下:

    #include<sstream> 
    stringstream ss(strFile); //先将文本句子载入流中,类似控制端键盘输入一段话
    string strTmp;
    while (ss >> strTmp)      //依次从流中读入每个单词
    {
     //###  每个word处理程序处
    }    

 1.4、英文单词频率统计
  到这里就是我们程序的重点了,如果前面的程序是考察你对C++语言使用是否扎实的考察,那么这块就是对你数据结构是否有灵活掌握的了解。
  如何灵活的记录文本中每个单词出现的频率?最简单的想法当然是数组,但是数组我们需要提前申请一个足够大的内存空间,显然不是一个很好的想法。并且还要返回原文查找每个索引对应的单词到底是哪一个,这就徒增了算法的时间复杂度。所以此处最好的数据结构方法是关联容器,如果你对标准模板库很了解的话可以想到使用基于红黑树的关联容器map或者基于哈希表的unordered_map。由于unordered_map查询和插入的时间复杂度是常数级,比基于红黑树的map对数级还要快,所以这里我们使用键值对记录的unordered_map数据结构。其中键对应单词string,值对应出现的频率int。具体实现如下:

#include<string>
#include<iterator>
#include<unordered_map>

using namespace std;

unordered_map<string, int> strMap;  //保存的结果
void countWord(stringstream &ss)
{
    //依次读入单词
    string strTmp;
    while (ss >> strTmp)
    {
        unordered_map<string, int>::iterator it = strMap.find(strTmp);
        if (it == strMap.end()) //strMap中如果不存在当前单词则插入一个新键值对,出现频率为1
        {
            strMap.insert(unordered_map<string, int>::value_type(strTmp, 1));
        }
        else                   //如果存在则出现频率+1
            strMap[strTmp]++;
    }
}

2、整个实现程序

#include<iostream>
#include<sstream>
#include<fstream>
#include<string>
#include<iterator>
#include<cctype>
#include<unordered_map>
using namespace std;

unordered_map<string, int> strMap;  //保存的结果
/***从字符串流中依次读入单词记录出现频率***/
void countWord(stringstream &ss)
{
    //依次读入单词
    string strTmp;
    while (ss >> strTmp)
    {
        unordered_map<string, int>::iterator it = strMap.find(strTmp);
        if (it == strMap.end())
        {
            strMap.insert(unordered_map<string, int>::value_type(strTmp, 1));
        }
        else
            strMap[strTmp]++;
    }
}

int main()
{
    //读入文档
    string strFile, tmp;
    fstream file("1.txt");
    while(getline(file, strFile))  //!file.eof()
    {
        strFile.append(tmp);
        tmp.clear();
    }   
    //去除符号
    for (int i = 0; i<strFile.length(); i++)
    {
        if (ispunct(strFile[i]))   
            strFile[i] = ' ';
    }
    //统计字符
    stringstream ss(strFile);
    countWord(ss);    
    //打印结果
    unordered_map<string,int>::const_iterator it;
    for (it = strMap.begin(); it != strMap.end(); ++it)
        cout << it->first << "=" << it->second << endl;
    cout << endl;
    return 0;
}

  个人学习记录,由于能力和时间有限,如果有错误望读者纠正,谢谢!
  转载请注明出处:http://blog.csdn.net/FX677588/article/details/72643302

  • 16
    点赞
  • 135
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
#include<stdio.h> #include<stdlib.h> struct four { double a; struct four *next; //定义结构体,作为链表的节点. }; void main() { double sum(void); //函数声明. 该函数返回等式的计算结果. 有优先级的运算符号在函数内部先进行计算。 double sum1; printf("请输入等式,以 '=' 结束, 例如“ 2*2*3-2/2= ” 结果将自动保留六位有效数字\n"); sum1=sum(); printf("该等式的结果为:\t%f\n\n",sum1); } double sum(void) { struct four *head,*pnew,*ptail,*p,*q; //结构体成员. char ah; double s=0,last; //last作为 pnew->a 的前一个数值. int j=1; q=(struct four *)malloc(sizeof(struct four)); scanf("%lf%c",&q->a,&ah); last=q->a; while(j==1 && ah!='=') //头节点的建立. { switch(ah) //对运算符号的优先级进行选择,优先级高的先进行计算. { case '+': j=0; continue; break; case '-': j=0; continue; break; case '*': q=(struct four *)malloc(sizeof(struct four)); scanf("%lf",&q->a); q->a=last*q->a; break; case '/': q=(struct four *)malloc(sizeof(struct four)); scanf("%lf",&q->a); q->a=last/q->a; break; default: printf("Error!\n"); //当运算符号出错时的处理. exit(0); } last=q->a; scanf("%c",&ah); } pnew=(struct four *)malloc(sizeof(struct four)); pnew->a=q->a; //将头节点的信息传递给 head 和 ptail. head=ptail=pnew; while(ah!='=') //接下来节点的建立. { pnew=(struct four *)malloc(sizeof(struct four)); scanf("%lf",&pnew->a); switch(ah) { case '*': pnew->a=last*pnew->a; break; case '/': pnew->a=last/pnew->a; break; case '+': break; case '-': pnew->a=-pnew->a;break; default: printf("Error!\n"); //当运算符号出错时的处理. exit(0); } scanf("%c",&ah); if(ah=='-' || ah=='+'|| ah=='=') //将值进行传递 ptail->next=pnew. { ptail->next=pnew; ptail=pnew; } last=pnew->a; } ptail->next=NULL; p=head; while(p!=NULL) //各个节点数值相加的结果,有优先级符号的已经先计算了. { s=s+(p->a); p=p->next; } return s; //返回运算结果. }

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值