100亿数据找出最大的1000个数字(top K问题)

在大规模数据处理中,经常会遇到的一类问题:在海量数据中找出出现频率最好的前k个数,或者从海量数据中找出最大的前k个数,这类问题通常被称为top K问题。例如,在搜索引擎中,统计搜索最热门的10个查询词;在歌曲库中统计下载最高的前10首歌等。

1、最容易想到的方法是将数据全部排序该方法并不高效,因为题目的目的是寻找出最大的10000个数即可,而排序却是将所有的元素都排序了,做了很多的无用功。

2、局部淘汰法用一个容器保存前10000个数,然后将剩余的所有数字一一与容器内的最小数字相比,如果所有后续的元素都比容器内的10000个数还小,那么容器内这个10000个数就是最大10000个数。如果某一后续元素比容器内最小数字大,则删掉容器内最小元素,并将该元素插入容器,最后遍历完这1亿个数,得到的结果容器中保存的数即为最终结果了。此时的时间复杂度为O(n+m^2),其中m为容器的大小。

这个容器可以用(小顶堆)最小堆来实现。我们知道完全二叉树有几个非常重要的特性,就是假如该二叉树中总共有N个节点,那么该二叉树的深度就是log2N,对于小顶堆来说移动根元素到 底部或者移动底部元素到根部只需要log2N,相比N来说时间复杂度优化太多了(1亿的logN值是26-27的一个浮点数)。基本的思路就是先从文件中取出1000个元素构建一个小顶堆数组k,然后依次对剩下的100亿-1000个数字进行遍历m,如果m大于小顶堆的根元素,即k[0],那么用m取代k[0],对新的数组进行重新构建组成一个新的小顶堆。这个算法的时间复杂度是O((100亿-1000)log(1000)),即O((N-M)logM),空间复杂度是M

这个算法优点是性能尚可,空间复杂度低,IO读取比较频繁,对系统压力大。

3、第三种方法是分治法,即大数据里最常用的MapReduce

a、将100亿个数据分为1000个大分区,每个区1000万个数据

b、每个大分区再细分成100个小分区。总共就有1000*100=10万个分区

c、计算每个小分区上最大的1000个数。

为什么要找出每个分区上最大的1000个数?举个例子说明,全校高一有100个班,我想找出全校前10名的同学,很傻的办法就是,把高一100个班的同学成绩都取出来,作比较,这个比较数据量太大了。应该很容易想到,班里的第11名,不可能是全校的前10名。也就是说,不是班里的前10名,就不可能是全校的前10名。因此,只需要把每个班里的前10取出来,作比较就行了,这样比较的数据量就大大地减少了。我们要找的是100亿中的最大1000个数,所以每个分区中的第1001个数一定不可能是所有数据中的前1000个。

d、合并每个大分区细分出来的小分区。每个大分区有100个小分区,我们已经找出了每个小分区的前1000个数。将这100个分区的1000*100个数合并,找出每个大分区的前1000个数。

e、合并大分区。我们有1000个大分区,上一步已找出每个大分区的前1000个数。我们将这1000*1000个数合并,找出前1000.这1000个数就是所有数据中最大的1000个数。

(a、b、c为map阶段,d、e为reduce阶段)

4、Hash法。如果这1亿个书里面有很多重复的数,先通过Hash法,把这1亿个数字去重复,这样如果重复率很高的话,会减少很大的内存用量,从而缩小运算空间,然后通过分治法或最小堆法查找最大的10000个数。

对于海量数据处理,思路基本上是:必须分块处理,然后再合并起来。

  • 13
    点赞
  • 54
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
### 回答1: 以下是一种示例代码: ``` import java.util.PriorityQueue; public class Top100Elements { public static void main(String[] args) { int[] data = new int[100000000]; // 假设data数组已经被初始化并赋值 PriorityQueue<Integer> top100 = new PriorityQueue<>(100, (a, b) -> b - a); for (int i : data) { if (top100.size() < 100) { top100.offer(i); } else if (i > top100.peek()) { top100.poll(); top100.offer(i); } } while (!top100.isEmpty()) { System.out.println(top100.poll()); } } } ``` 这段代码使用了`java.util.PriorityQueue`类,该类实现了一个优先队列,每次弹出的元素都是队列中最小的元素。我们通过在创建PriorityQueue对象时传入一个Comparator对象来修改元素的比较规则,使得每次弹出的都是队列中最大的元素。在遍历数组时,如果优先队列中元素数量小于100,则直接将元素加入队列;否则,如果当前遍历到的元素比队列顶部的元素大,则弹出队列顶部的元素并将当前元素加入队列,这样就可以维护队列中始终是最大100个数。最后,遍历优先队列,每次弹出元素即可得到最终的100最大的数。 ### 回答2: 要在100亿数据找出最大的一百个,可以使用排序算法实现。排序利用了的性质,能够以时间复杂度O(nlogn)找到最大的一百个数。 首先,我们创建一个大小为一百的最小,并将中的元素初始化为前一百个数据。然后,对于剩余的数据进行遍历,如果当前数据大于顶元素,则将顶元素替换为当前数据,并进行调整,以保证最小的性质依然成立。 接着,继续遍历剩余的数据,重复上述操作,直至遍历完成。最终,中的元素即为100亿数据最大的一百个数。 下面是相应的Java代码示例: ```java import java.util.PriorityQueue; public class FindTop100 { public static void main(String[] args) { long[] data = new long[1000000000]; // 100亿数据,这里假设使用long类型 // 假设数据已经初始化完毕 PriorityQueue<Long> minHeap = new PriorityQueue<>(100); // 创建大小为一百的最小 for (int i = 0; i < 100; i++) { minHeap.offer(data[i]); // 初始化 } for (int i = 100; i < data.length; i++) { if (data[i] > minHeap.peek()) { minHeap.poll(); minHeap.offer(data[i]); } } // 输出最大的一百个数 while (!minHeap.isEmpty()) { System.out.println(minHeap.poll()); } } } ``` 通过以上代码,我们可以在100亿数据中找到最大的一百个数,并按从大到小的顺序输出。 ### 回答3: 要解决这个问题,可以使用Java中的最大数据结构来实现。下面是一段示例代码,用于找出给定100亿数字中的最大一百个数字: ```java import java.util.PriorityQueue; public class FindLargestNumbers { public static void main(String[] args) { // 模拟100亿数字的输入,在这里假设为一个100亿长度的数组,命名为inputArray long[] inputArray = new long[(int)1e10]; // 创建一个最大,用于保存当前最大的一百个数字 PriorityQueue<Long> maxHeap = new PriorityQueue<>(100, (a, b) -> b.compareTo(a)); // 遍历输入数组,将数字插入到最大中 for (int i = 0; i < inputArray.length; i++) { maxHeap.add(inputArray[i]); // 一旦的大小超过100,删除顶元素 if (maxHeap.size() > 100) { maxHeap.poll(); } } // 最后,中保存的就是最大的一百个数字 System.out.println("最大的一百个数字为:"); while (!maxHeap.isEmpty()) { System.out.println(maxHeap.poll()); } } } ``` 以上代码使用了一个最大来保存当前最大的一百个数字,并在遍历输入数组时动态维护这个。由于最大的大小限制为100,因此中的数字始终保持最大的一百个。遍历结束后,最大中保存的就是最大的一百个数字。最后,通过循环打印最大中的元素,即可得到最大的一百个数字

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值