谈从10亿个数中找出前10万个最大的

10亿个浮点数大概占据3G左右的空间,因此全部一次性读入内存目前在个人PC上是不太现实的。本次讨论不考虑内存等等,只考虑算法。


如果一次性比较排序,然后输出前面最大的10w个,那么众所周知,算法的时间复杂度不下于O(N lgN),此处的N为数的个数(10亿)。

如果用堆排序,由于堆排序像合并排序而不像插入排序,堆排序的运行时间为O(N lgN);又想插入排序而不像合并排序,堆排序是一种原地排序。因此堆排序具有相对小的运行时间和占用相对小的额外空间的优点。

再则,利用最小堆的性质,堆顶元素是整棵树中具有最小值的元素,因此,我们可以构建这样的一个最小堆:

step1:取前m个元素(例如m=10万),建立一个小顶堆

         保持一个小顶堆得性质的步骤,运行时间为O(lgm);

          建立一个小顶堆运行时间为m*O(lgm)=O(m lgm);

        其实建立一个小顶堆实际运行时间为O(m);具体分析参考算法导论。


step2:顺序读取后续元素,直到结束

      每次读取一个元素,如果该元素比堆顶元素小,直接丢弃

      如果大于堆顶元素,则用该元素替换堆顶元素,然后保持最小堆性质

    最坏情况是每次都需要替换掉堆顶的最小元素,因此需要维护堆的代价为(N-m)*O(lgm);

最后这个堆中的元素就是前最大的10W个。

    时间复杂度为O(N lgm)。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值