海量数据最小k个数

从大量(海量)数据中查找最小的k(k一般比较小)个数,这是笔试中常考的题目。 如果是从少量数据中查找最小的k个数据,并且允许修改允许修改原始数据,侧利用Partition()函数,在O(N)的时间复杂度,O(1)的空间复杂度就可以找到最小的k个数据。
从大量数据中查找最小的k个数,我们可以利用一个容器先存储前k个数据,然后从数据中读取下一个数,判断该数是与容器中最大的数的大小,如果该数较大或相等,侧读取下一个数,如果该数比容器中最大数小,侧删除容器中该最大数,将该数放入容器中,然后读取下一个数…
从容器中选择最大的数,可以知道该容器应该是大根堆,或二叉排序树,红黑树。下面是以multiset为容器实现该算法。
multiset的插入操作采用底层机制RB-tree的insert_equal()而非insert_unique(),因此和set的唯一区别在于它允许键值重复。

#include "stdafx.h"  
#include  <iostream>  
#include <vector>  
#include <set>  
#include <ctime>  
using namespace std;  

typedef multiset<int,greater<int>> Set;  
typedef multiset<int,greater<int>>::const_iterator Set_iterator;  

void getLeastNumbers(const vector<int> & numbers,Set & leastNumbers,int k)  
{  
   leastNumbers.clear();  
   if(k<=0 || numbers.size()<k)  
       return ;  
   for(vector<int>::const_iterator ite=numbers.begin();ite!=numbers.end();ite++)  
   {  
      if(leastNumbers.size()<k)  
      {  
          leastNumbers.insert(*ite);  
      }  
      else  
      {  
          Set_iterator IteratorFirst=leastNumbers.begin();//最大的元素  
          if(*ite<*IteratorFirst)  
          {  
              leastNumbers.erase(IteratorFirst);  
              leastNumbers.insert(*ite);  
          }  
      }  
   }  
}  

int _tmain(int argc, _TCHAR* argv[])  
{  
    //int a[]={4,5,1,6,2,7,3,8};  
    //int length=sizeof(a)/sizeof(int);  
    //vector<int> numbers(a,a+length-1);  
    srand((unsigned)time(0));  
    vector<int> numbers;  
    for(int i=0;i<100000;i++)  
       numbers.push_back(rand());  
    for(vector<int>::iterator ite=numbers.begin();ite!=numbers.end();ite++)  
        cout<<*ite<<" ";  
    cout<<endl;  

    Set leastNumbers;  
    int k=4;  
    getLeastNumbers(numbers,leastNumbers,k);  
    for(Set_iterator ite=leastNumbers.begin();ite!=leastNumbers.end();ite++)  
    {  
       cout<<*ite<<" ";  
    }  
    system("PAUSE");  
    return 0;  
}  

该算法的时间复杂度为:NlogK,空间复杂度为O(k)。我们不需要一次性将数据全部放入内存,只需从硬盘一次读一个数据到内存即可,但是内存必须够容纳容器(multiset)中的K个数。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值