(待扩展)读取一个文件统计词频

#include<iostream>
#include<fstream>
#include<string>
#include<map>
#include<set>
using namespace std;

int main()
{
    map<string,int>word_count;
  //  set<string>exclude={"the","a","but","an","and","or",
  //                         "The","A","An","But","And","Or"};
    string buff;
    string filename;
    cout<<"Input file name: "<<endl;
    cin>>filename;
    ifstream fin(filename.c_str());

    while(fin>>buff)
    {
      //  if(exclude.find(word)==exclude.end())
            word_count[buff]++;
    }
    fin.close();
    map<string,int>::iterator iter;

    for(iter=word_count.begin();iter!=word_count.end();iter++)
        cout<<(*iter).first<<" occurs"<<(*iter).second<<(((*iter).second>1)?" times":" time")<<endl;
    return 0;

}

待扩展:
1.忽略大小写
2.词根提取,也就是忽略不同时态等差别
3.按出现次数排序
4.可识别中文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值