海量数据处理 - 10亿个数中找出最大的10000个数（top K问题）

最新推荐文章于 2022-06-04 23:14:18 发布

AI算法网奇

最新推荐文章于 2022-06-04 23:14:18 发布

阅读量2.5k

点赞数

分类专栏：数据结构与算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jacke121/article/details/88932858

版权

数据结构与算法专栏收录该内容

75 篇文章 29 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了在海量数据中找出最大的10000个数（Top K问题）的各种策略，包括排序、局部淘汰法、分治法、Hash法和最小堆。提出优化方法如数据分组、分治结合Trie树/Hash和小顶堆。并讨论了不同内存和计算资源条件下的解决方案，以及如何在实际应用中选择合适的方法。

摘要由CSDN通过智能技术生成

海量数据处理 - 10亿个数中找出最大的10000个数（top K问题）

问题：先拿10000个数建最小堆，然后依次添加剩余元素，如果大于堆顶的数（10000中最小的），将这个数替换堆顶，并调整结构使之仍然是一个最小堆，这样，遍历完后，堆中的10000个数就是所需的最大的10000个。建堆时间复杂度是O（mlogm），算法的时间复杂度为O（nmlogm）（n为10亿，m为10000）。

优化的方法：可以把所有10亿个数据分组存放，比如分别放在1000个文件中。这样处理就可以分别在每个文件的10^6个数据中找出最大的10000个数，合并到一起在再找出最终的结果。

以上就是面试时简单提到的内容，下面整理一下这方面的问题：

top K问题

在大规模数据处理中，经常会遇到的一类问题：在海量数据中找出出现频率最高的前k个数，或者从海量数据中找出最大的前k个数，这类问题通常被称为top K问题。例如，在搜索引擎中，统计搜索最热门的10个查询词；在歌曲库中统计下载最高的前10首歌等。

针对top K类问题，通常比较

了解本专栏

超级会员免费看

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
海量数据处理 - 10亿个数中找出最大的10000个数（top K问题）

海量数据处理 - 10亿个数中找出最大的10000个数（top K问题）问题：先拿10000个数建最小堆，然后依次添加剩余元素，如果大于堆顶的数（10000中最小的），将这个数替换堆顶，并调整结构使之仍然是一个最小堆，这样，遍历完后，堆中的10000个数就是所需的最大的10000个。建堆时间复杂度是O（mlogm），算法的时间复杂度为O（nmlogm）（n为10亿，m为10000）。...
复制链接

扫一扫

专栏目录

AI算法网奇

CSDN认证博客专家 CSDN认证企业博客

码龄15年

Python领域优质创作者

5014: 原创

725: 周排名

4: 总排名

2812万+: 访问

: 等级

24万+: 积分

7万+: 粉丝

8646: 获赞

3293: 评论

2万+: 收藏

私信

关注

热门文章

分类专栏

最新评论

终止代码 page_fault_in_nonpaged_area
2401_85225271: 方案三运行sfc /scannowWindows 资源保护找到了损坏文件，但其中有一些文件无法修复。对于联机修复，位于 windir\Logs\CBS\CBS.log 的 CBS 日志文件中有详细信息。例如 C:\Windows\Logs\CBS\CBS.log。对于脱机修复， /OFFLOGFILE 标记提供的日志文件中有详细信息。运行以下命令检查系统映像并修复可能的问题： DISM /Online /Cleanup-Image /RestoreHealth下面这个运行后卡在62.3%不动了咋整？
局域网探测搜索 ip
CSDN-Ada助手: TCP 协议的可靠传输机制是怎样实现的？
undefined reference to ‘cv::imread问题调查
DEL136: 我在OpenHarmony系统中去编译链接是能正常找到imgcodecs的，但是在工程中去添加so然后编译链接就会找不到然后报错imread未定义。也是很奇怪的问题，不知道是不是链接的动态库顺序的问题
特征检索学习笔记
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性。
超分网络笔记轻量级
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AI算法网奇 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。