TopN问题

题目通常描述为:如何在很多数中(10亿)中寻找前1000个最大的数。

答:构造一个1000个数的小顶堆,然后再遍历剩下的元素,假如说比堆顶还小,那么这个堆中的1000个数都比这个数大,那么直接就淘汰这个数,如果比堆顶大,那么就把这个数替换掉堆顶元素(也就是堆顶元素肯定不是前1000个最大的数)。然后重新进行堆排序。

假设问题规模不定,我们把题目序数为如何在n(n>>1000)个数中寻找前1000个最大的数?并求其时间复杂度。

题目给我们的是n个数的数组,假设就是10亿个数的数组。

我们要把1000个最大的数找到并交换位置放到这10亿数数组的最前面。

解法:我们堆数组的前1000个数建小顶堆,注意不是堆排序!!!,建小顶堆就是堆排序中的建初始堆的过程时间复杂度是O(n),然后再从下标为1000的数(也就是第1001个数)开始与堆顶(也就是下标为0的数比较,如果比堆顶小,那么就舍弃,如果比堆顶大,交换该数和堆顶,然后调整堆为小顶堆,然后再进行。由于堆的个数是1000不变,那么调整堆的最大次数就是log1000,是个常数,所以说时间复杂度就是O(n)

优化的方法:可以把所有10亿个数据分组存放,比如分别放在1000个文件中。这样处理就可以分别在每个文件的10^6个数据中找出最大的10000个数,合并到一起在再找出最终的结果。

如果这10亿数据中,有大量重复元素,可以使用哈希法去除重复元素。比如可以使用位图法。出现的标记为true,没出现的用false.

所以TopK问题可以

1、建堆法

2、位图法

 


 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值