在海量数据中找到最大的前K个数（top K问题）

最新推荐文章于 2024-05-13 09:45:00 发布

有梦想的小树

最新推荐文章于 2024-05-13 09:45:00 发布

阅读量2.6k

点赞数 1

分类专栏：刷题文章标签： top K 最大的前K个数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_38109046/article/details/88656492

版权

刷题专栏收录该内容

44 篇文章 0 订阅

订阅专栏

问题分析：数据是海量的，可能达到10亿或者100亿以上，只需要找最大的前100个数。所以将数据一次性排序然后取前100个是不太可取的操作。做了很多无用功，并且内存一次性也加载不了海量数据。

解决方案：

方案一：堆。一般说在很多数据中取前多少个数据，我们都会想到堆，这里我们使用堆来解决问题。首先取K个数建立一个小根堆（堆顶是堆中最小的元素），建堆的时间复杂度是O(KlgK)，这个时间复杂度虽然是上界，但不是渐进紧确的，渐进紧确的上界为O(K)，具体推导见《算法导论.第三版》P88。接着依次从海量数据(N个数)中拿出一个数据与堆顶元素进行比较，若小于堆顶元素则继续从海量数据中取下一个数，若取出的数比堆顶元素大，则替换堆顶元素，并维护堆的性质，维护堆的性质所需要的时间复杂度是O(lgK)。直到将(N-m)个数遍历完，堆中剩余的数就是N个数的最大前K个数。故总时间复杂度为O(K+(N-m)lgK) => O(N·lgK) 【N为海量数据，K为要取的最大前K个数。】
方案二：分块。面对大量数据时，分块也是比较容易想到的解决方法。假设将海量数据分成1000块，然后在每块中找到最大的前K个数。然后再从1000·K个数中直到最大的前K个数。

有梦想的小树

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
在海量数据中找到最大的前K个数（top K问题）

问题分析：数据是海量的，可能达到10亿或者100亿以上，只需要找最大的前100个数。所以将数据一次性排序然后取前100个是不太可取的操作。做了很多无用功，并且内存一次性也加载不了海量数据。解决方案：方案一：堆。一般说在很多数据中取前多少个数据，我们都会想到堆，这里我们使用堆来解决问题。首先取K个数建立一个小根堆（堆顶是堆中最小的元素），建堆的时间复杂度是O(KlgK)，这个时间复杂度...
复制链接

扫一扫

专栏目录

有梦想的小树 CSDN认证博客专家 CSDN认证企业博客

码龄7年

120: 原创

5万+: 周排名

205万+: 总排名

31万+: 访问

: 等级

3022: 积分

96: 粉丝

439: 获赞

63: 评论

2350: 收藏

私信

关注

热门文章

分类专栏

二叉树 9篇
JAVA 31篇
Python相关学习 16篇
Algorithms 11篇
计算机基础知识 4篇
MYSQL 6篇
Django 4篇
Cookbook 3篇
刷题 44篇
程序人生
计算机网络 3篇
Linux 1篇
设计模式 4篇
Spring 2篇

最新评论

Java面试常考的 BIO，NIO，AIO 总结
hnsffz: 非阻塞：非阻塞就是发起一个请求，调用者不用一直等着结果返回，可以先去干其他事情。这个是不是有问题呢？应该是没有结果时调用者不会等待吧，举个例子 serversocket.accept()，没有客户端的连接会一直阻塞在这，serversocketchannel.accept(),没有客户端的连接就没有，会继续往下面走，总之阻塞与非阻塞就是没有结果时会不会一直等到有结果的区别
IEEE754浮点数以及移码的设计思想
做而论道_CS: 另外，对浮点数的理解，也不需要弄这么麻烦的。上过初一的，都知道科学记数法：　N = ± 绝对值 × 10^e。绝对值，当然是正数，由一位整数、多位小数组成。 e 则是以 10 为底的指数。将此法，引入到计算机中，就是 “浮点数” 了：　N = (－1)^S × (1.) M × 2^E。其中的 1.M，就是绝对值，它是一个无符号数。阶码 E，则为：指数 e + 127。把 “科学记数法” 中的 “绝对值、指数 e”，拿来换算一下，“浮点数” 就出来了。反变换一下，也就看出 “浮点数” 代表什么值了。浮点数的运算：　相加减，要先对阶，再用绝对值的补码加减。　相乘除，就是绝对值相乘除、阶码相加减。得出了加减乘除的结果后，还需要整理成规范的形式。计算机中的浮点数运算，是由 “浮点机” 实现的。（例如 80x86 系统的中的 “协处理器”。）对阶、上下溢、运算、规格化等等，都是由硬件完成的。这些步骤，不需要谁来编程。不用编程，还学它干嘛？难道，你们还想设计硬件？硬件的原理及其设计，就由 “电子信息工程专业” 去干吧。计算机专业的老师，就不要在这里哗众取宠了。计算机专业的学生，学了这些，也是 P 用都没有的。学了半年，也还是隔靴搔痒而已。计算机专业，了解一点 “定点数、补码” 就行了。当然，没上过中学又想装大瓣蒜的人，学学也无妨。
Java面试常考的 BIO，NIO，AIO 总结
技术杠精: 你不适合敲代码[goutou]
IEEE754浮点数以及移码的设计思想
做而论道_CS: 八位二进制数的表示范围是：0 ~ 255。作为阶码，可用的范围，只能是：1 ~ 254。偏置采用 127，指数的范围就是：－126 ~ +127；偏置采用 128，指数的范围则是：－127 ~ +126.。偏置采用 127，便于表示更大的数值；偏置采用 128，便于表示更小的数值。 (这里说的，是绝对值。) 需要表示更小的数值吗？不需要。在 IEEE 754 中，还有一个 “非规格化” 的数据格式。在这种格式中，是专门表示：小于 “规格化” 的数据。在这种格式中，隐含的整数，不是 1，而是 0。在这种格式中，指数，固定为－126。在这种格式中，23 位尾数的最小值，是末尾的一个 1。那么，此时的浮点数，所表示的真值是：1 * 2^(-149) ！这个数，足够小了。实际应用中，也就足够用了。因此，偏置，就选用了 127。而不选，能表示更小数值的 128。你去看看 IEEE754 规范吧。认真仔细的看完才好。
Java面试常考的 BIO，NIO，AIO 总结
zy_yuanwei: 写的很好，其实理解来说就是等于异步的去进行IO操作

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。