java 千万数据排序取top_海量数据处理大量数据中找出最大的前10个数（Top K 问题）...

VIP文章 EchiTie

于 2021-02-26 06:09:50 发布

阅读量2k

点赞数

文章标签： java 千万数据排序取top

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33977645/article/details/114719822

版权

在工作中我们常遇到此类问题，从一个大量甚至海量的数据中取出前几个大的数。必须在海量的文章中取出点击量最大的10篇文章。

此类问题其实就是Top K问题。

给定一个数据(数据量海量 N)，想找到前 K 个最大的或最小的元素。

eg：有10亿个Long型整数，存储在文件中，如果找出其中最大的10个？

最容易想到的方法是将数据全部排序，然后在排序后的集合中进行查找，最快的排序算法的时间复杂度一般为O(nlogn)，如快速排序。每个Long类型占8个字节，10亿个数就要占用7GB+的存储空间，对于一些可用内存小于7GB的计算机而言，很显然是不能一次将全部数据读入内存进行排序的。其实即使内存能够满足要求(我机器内存都是8GB)，该方法也并不高效，因为题目的目的是寻找出最大的10个数即可，而排序却是将所有的元素都排序了，做了很多的无用功。

第二种方法采用最小堆。首先读入前10个数来创建大小为10的最小堆，然后遍历后续的数字，并于堆顶(最小)数字进行比较。如果比最小的数小，则继续读取后续数字；如果比堆顶数字大，则替换堆顶元素并重新调整堆为最小堆。整个过程直至10亿个数全部遍历完为止。然后按照中序遍历的方式输出当前堆中的所有10个数字。这个方法使用的内存是可控的，只有10个数字所需的内存即可。

这种方法Java中有现成的数据结构优先级队列可以使用：java.util.Pri

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
java 千万数据排序取top_海量数据处理大量数据中找出最大的前10个数（Top K 问题）...

在工作中我们常遇到此类问题，从一个大量甚至海量的数据中取出前几个大的数。必须在海量的文章中取出点击量最大的10篇文章。此类问题其实就是Top K问题。给定一个数据(数据量海量 N)，想找到前 K 个最大的或最小的元素。eg：有10亿个Long型整数，存储在文件中，如果找出其中最大的10个？最容易想到的方法是将数据全部排序，然后在排序后的集合中进行查找，最快的排序算法的时间复杂度一般为O(nlogn...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。