海量数据处理大量数据中找出最大的前10个数（Top K 问题）

最新推荐文章于 2024-08-13 16:40:30 发布

大树91

最新推荐文章于 2024-08-13 16:40:30 发布

阅读量9.5k

点赞数 9

分类专栏： Java 算法文章标签： java 大数据

本文链接：https://blog.csdn.net/wandou9527/article/details/108376137

版权

本文探讨如何在海量数据中高效地找出前K个最大值，提出使用最小堆的策略，通过对比传统排序方法的局限性，详细解释了最小堆的工作原理和Java中的实现，强调在实际应用中应考虑内存、多线程等因素来优化解决方案。

摘要由CSDN通过智能技术生成

哈哈😸

在工作中我们常遇到此类问题，从一个大量甚至海量的数据中取出前几个大的数。必须在海量的文章中取出点击量最大的10篇文章。
此类问题其实就是Top K问题。
给定一个数据（数据量海量 N），想找到前 K 个最大的或最小的元素。

eg：有10亿个Long型整数，存储在一个文件中，如果找出其中最大的10个？
最容易想到的方法是将数据全部排序，然后在排序后的集合中进行查找，最快的排序算法的时间复杂度一般为O（nlogn），如快速排序。每个Long类型占8个字节，10亿个数就要占用7GB+的存储空间，对于一些可用内存小于7GB的计算机而言，很显然是不能一次将全部数据读入内存进行排序的。其实即使内存能够满足要求（我机器内存都是8GB），该方法也并不高效，因为题目的目的是寻找出最大的10个数即可，而排序却是将所有的元素都排序了，做了很多的无用功。

第二种方法采用最小堆。首先读入前10个数来创建大小为10的最小堆，然后遍历后续的数字，并于堆顶（最小）数字进行比较。如果比最小的数小，则继续读取后续数字；如果比堆顶数字大，则替换堆顶元素并重新调整堆为最小堆。整个过程直至10亿个数全部遍历完为止。然后按照中序遍历的方式输出当前堆中的所有10个数字。这个方法使用的内存是可控的，只有10个数字所需的内存即可。
这种方法Java中有现成的数据结构优先级队列可以使用：java.util.PriorityQueue
代码如下：

import org.junit.Test;

import java.io.*;
import java.util.PriorityQueue;
import java.util.Random;

/**
 * @author liming
 * @date 2020/9/3
 * @description
 */
public class TopKDemo {
   

	//模拟海量数据的文件
    private final File file = new File("file" + File.separator + "topkdata.txt");
    private final Random random = new Random();
    private final PriorityQueue<Long> priorityQueue = new PriorityQueue<>(10);

    @Test
    public void computeTopK() {
   
        FileReader fileReader