海量数据中选出最大的N个

最新推荐文章于 2022-08-12 17:10:04 发布

crazy_yyyyy

最新推荐文章于 2022-08-12 17:10:04 发布

阅读量913

点赞数 1

分类专栏：数据结构与算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/crazy_yyyyy/article/details/51088741

版权

数据结构与算法专栏收录该内容

13 篇文章 0 订阅

订阅专栏

前几天，面试了一家公司，其中出了一道算法应用题，题是这样的：有100个文件，每个文件里有10000个数据，选出前100个大的数据；

听到这么大的数据，第一个想法就是堆排，因为这个题很符合堆排的条件：（1）大数据（2）选择前多少个

当我说出堆排的时候，自己也有在想，这么多的数据，能不能一下全部读入呢，，如果全部读入，要用多少空间来存储？？？

之后，面试官提醒我，利用归并的思想，最后下来查了一下，也是

对于海量的数据，必须要有一个思想：首先分块处理，再合并。

（1）在每个文件的内部进行排序，找出前100个大的数据；这就是先分块处理；对于为什么要找出前100个，而不是最大的一个，大家有没有想过，，如果说，这100个大的数据都在一个文件里面呢，，所以必须要找出每个文件的前 100 个大的；

（2）再将这100个文件的前100个大的进行比较；

这两步下来，我们就把10000个数据缩小为 100个数据，这样数据量就缩小为 100 * 100，

之后，还看到一种方法，叫做局部淘汰法：

思想：该方法与排序方法类似，用一个容器保存前10000个数，然后将剩余的所有数字——与容器内的最小数字相比，如果所有后续的元素都比容器内的10000个数还小，那么容器内这个10000个数就是最大10000个数。如果某一后续元素比容器内最小数字大，则删掉容器内最小元素，并将该元素插入容器，最后遍历完这1亿个数，得到的结果容器中保存的数即为最终结果了。此时的时间复杂度为O（n+m^2），其中m为容器的大小，即10000。

总之，并不是所有的大数据都可以用堆排来处理，，如果有什么更好的思路，记得告诉我，，，

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
海量数据中选出最大的N个

前几天，面试了一家公司，其中出了一道算法应用题，题是这样的：有100个文件，每个文件里有10000个数据，选出前100个大的数据；听到这么大的数据，第一个想法就是堆排，因为这个题很符合堆排的条件：（1）大数据（2）选择前多少个当我说出堆排的时候，自己也有在想，这么多的数据，能不能一下全部读入呢，，如果全部读入，要用多少空间来存储？？？之后，面试官提醒我，利用归并
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。