面试题:Top K 算法详细解析---百度面试

问题描述:

这是在网上找到的一道百度的面试题:

搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度 为 1-255 字节。假设目前有一千万个记录,这些查询串的重复度比较 高,虽然总数是 1 千 万,但如果除去重复后,不超过 3 百万个。一个查询串的重复度越高,说明查询它的用户越 多,也就是越热门。请你统计最热门的 10 个查询 串,要求使用的内存不能超过 1G。

问题解析:

【分析】:要统计最热门查询,首先就是要统计每个 Query 出现的次数,然后根据统计结果, 找出 Top 10。所以我们可以基于这个思路分两步来设计该算法。下面分别给出这两步的算 法:

第一步:Query 统计

算法一:直接排序法

首先我们能想到的算法就是排序了,首先对这个日志里面的所有 Query 都进行排序,然后再 遍历排好序的 Query,统计每个 Query 出现的次数了。但 是题目中有明确要求,那就是内 存不能超过 1G,一千万条记录,每条记录是 225Byte,很显然要占据 2.55G 内存,这个条 件就不满足要求了。 让我们回忆一下数据结构课程上的内容,当数据量比较大而且内存无法装下的时候,我们可 以采用外排序的方法来进行排序,这里笔者采用归并排序,是因为归并排序有一个比较好的 时间复杂度 O(NlgN)。 排完序之后我们再对已经有序的 Query 文件进行遍历,统计每个 Query 出现的次数,再次写 入文件中。 综合分析一下,排序的时间复杂度是 O(NlgN),而遍历的时间复杂度是 O(N),因此该算法 的总体时间复杂度就是 O(NlgN)。

算法二:Hash Table 法

在上个方法中,我们采用了排序的办法来统计每个 Query 出现的次数,时间复杂度是 NlgN, 那么能不能有更好的方法来存储,而时间复杂度更低呢? 题目中说明了,虽然有一千万个 Query,但是由于重复度比较高,因此事实上只有 300 万的 Query,每个 Query255Byte,因此我们可以考虑 把他们都放进内存中去,而现在只是需要 一个合适的数据结构,在这里,Hash Table 绝对是我们优先的选择,因为 Hash Table 的查询 速度非常的快,几乎是 O(1)的时间复杂度。 那么,我们的算法就有了:维护一个 Key 为 Query 字串,Value 为该 Query 出现次数的 HashTable,每次读取一个 Query,如果该字串 不在 Table 中,那么加入该字串,并且将 Value 值设为 1;如果该字串在 Table 中,那么将该字串的计数加一即可。最终我们在 O(N)的时间 复杂度 内完成了对该海量数据的处理。 本方法相比算法一:在时间复杂度上提高了一个数量级,但不仅仅是时间复杂度上的优化, 该方法只需要 IO 数据文件一次,而算法一的 IO 次数较多的,因此该算法比算法一在工程 上有更好的可操作性。

第二步:找出 Top 10

算法一:排序

我想对于排序算法大家都已经不陌生了,这里不在赘述,我们要注意的是排序算法的时间复 杂度是 NlgN,在本题目中,三百万条记录,用 1G 内存是可以存下的。

算法二:部分排序

题目要求是求出 Top 10,因此我们没有必要对所有的 Query 都进行排序,我们只需要维护 一个 10 个大小的数组,初始化放入 10Query,按照每个 Query 的统计次数由 大到小排序, 然后遍历这 300 万条记录,每读一条记录就和数组最后一个 Query 对比,如果小于这个 Query, 那么继续遍历,否则,将数组中最后一条数 据淘汰,加入当前的 Query。最后当所有的数 据都遍历完毕之后,那么这个数组中的 10 个 Query 便是我们要找的 Top10 了。 不难分析出,这样的算法的时间复杂度是 N*K, 其中 K 是指 top 多少。

算法三:堆

在算法二中,我们已经将时间复杂度由 NlogN 优化到 NK,不得不说这是一个比较大的改进 了,可是有没有更好的办法呢? 分析一下,在算法二中,每次比较完成之后,需要的操作复杂度都是 K,因为要把元素插入 到一个线性表之中,而且采用的是顺序比较。这里我们注意一下,该数组 是有序的,一次 我们每次查找的时候可以采用二分的方法查找,这样操作的复杂度就降到了 logK,可是, 随之而来的问题就是数据移动,因为移动数据次数增多 了。不过,这个算法还是比算法二 有了改进。 基于以上的分析,我们想想,有没有一种既能快速查找,又能快速移动元素的数据结构呢? 回答是肯定的,那就是堆。 借助堆结构,我们可以在 log 量级的时间内查找和调整/移动。因此到这里,我们的算法可 以改进为这样,维护一个 K(该题目中是 10)大小的小根堆,然后遍历 300 万的 Query,分别 和根元素进行对比。。。 那么这样,这个算法发时间复杂度就降到了 NlogK,和算法而相比,又有了比较大的改进

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

EthanMilk

你的鼓励是我创作的最大动力谢谢

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值