TOP K算法(微软笔试题 统计英文电子书中出现次数最多的k个单词)

        在v_JULY_v的文章中找到了这个问题的解法后用C++实现了一下,发现C++的代码非常的简洁。

主要用到了标准库中的hash_map,优先级队列priority_queue。

        算法的思路是:

  1. 从头到尾遍历文件,从文件中读取遍历到的每一个单词。
  2. 把遍历到的单词放到hash_map中,并统计这个单词出现的次数。
  3. 遍历hash_map,将遍历到的单词的出现次数放到优先级队列中。
  4. 当优先级队列的元素个数超过k个时就把元素级别最低的那个元素从队列中取出,这样始终保持队列的元素是k个。
  5. 遍历完hash_map,则队列中就剩下了出现次数最多的那k个元素。

      具体实现和结果如下:

//出现次数最多的是个单词

//出现次数最多的是个单词
void top_k_words()
{
	timer t;
	ifstream fin;
	fin.open("modern c.txt");
	if (!fin)
	{
		cout<<"can nont open file"<<endl;
	}
	string s;
	hash_map<string,int> countwords;
	while (true)
	{
		fin>>s;
		if (fin.eof())
		{
			break;
		}
		countwords[s]++;
	}
	cout<<"单词总数 (重复的不计数):"<<countwords.size()<<endl;
	priority_queue<pair<int,string>,vector<pair<int,string>>,greater<pair<int,string>>> countmax;
	for(hash_map<string,int>::const_iterator i=countwords.begin();
		i!=countwords.end();i++)
	{
		countmax.push(make_pair(i->second,i->first));
		if (countmax.size()>10)
		{
			countmax.pop();
		}
	}
	while(!countmax.empty())
	{
		cout<<countmax.top().second<<" "<<countmax.top().first<<endl;
		countmax.pop();
	}
	cout<<"time elapsed "<<t.elapsed()<<endl;
}



 

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

C++程序员Carea

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值