[Top-K] 海量数据的Top-K问题/出现频率Top-K问题

最新推荐文章于 2024-09-08 08:39:39 发布

GxDong_

最新推荐文章于 2024-09-08 08:39:39 发布

阅读量723

点赞数

分类专栏：学习笔记算法文章标签：面试 java

本文链接：https://blog.csdn.net/GxDong_/article/details/115217951

版权

学习笔记同时被 2 个专栏收录

29 篇文章 0 订阅

订阅专栏

算法

12 篇文章 0 订阅

订阅专栏

描述

最近在面试中有被问到，Top-K的相关问题，在此做以总结，希望对后续面试的小伙伴有帮助

题目要素

1.海量数据（大数量，小内存）
2.排名前K
变体：海量数据的词频问题

例子

先举一个比较有趣的例子。
已知现在有25匹马，5条赛道，假设不考虑马的疲劳问题，不可以使用计时器记录每一匹马的时间。最少需要多少次比赛才能选出25匹马中的TOP3。

答案：7次
思路：
❗ 解决此类问题，脑海中一定要从哪些马没有资格成为TOP3的思想出发。
首先，对25匹马进行5次比赛，淘汰每一组中排名靠后的两匹马，因为这些马没有资格成为TOP3；

目前剩余马数 : 25 - 2 * 5 = 15

其次，对每一组跑的最快的进行1次比赛，从5匹马中找到最快的一匹，并淘汰跑的慢的那两匹马和所在组的全部马。因为这些马都没有资格成为TOP3;

目前剩余马数 ：15 - 2 * 3 = 9

最后，对于目前的9匹马，我们已经确定了第一匹马，既Top1，那么，在该组中只有排名第2和排名第3的马，有机会成为TOP3，在上一轮排名第二的马所在组，只有排名第1的马和排名第2的马有机会成为TOP3，在上一轮排名第三的马所在组，只有排名第1的马才有可能成为TOP3。
那么这个问题就变成了，在5匹马中找前2，只需要在比较1次就可以了。

所以一共需要比5+1+1 = 7 次。如果没有看懂，不妨画一个二维矩阵理解一下。

重点