【算法总结-top K】堆--查找最小（大）的k个元素

最新推荐文章于 2024-07-29 15:29:42 发布

ohmygirl

最新推荐文章于 2024-07-29 15:29:42 发布

阅读量2.1w

点赞数 5

分类专栏：数据结构、算法

本文链接：https://blog.csdn.net/ohmygirl/article/details/7843945

版权

本文介绍了如何利用快速排序和堆解决Top K问题，详细解释了堆的数据结构和操作，包括向下调整和向上调整，并探讨了在海量数据场景下，如何结合MapReduce和Hadoop进行高效处理。

摘要由CSDN通过智能技术生成

top K问题是一个经典的问题。

该问题描述为：输入n个整数，输出其中最小的k个元素，例如，输入 1,2,3,4，5,6,7,8 那么最小的4个元素就是1,2,3,4.

除了这个，top K问题还指：常遇到的一类问题是，在海量数据中找出出现频率最高的前K个数，或者从海量数据中找出最大的前K个数，这类问题通常称为“top K”问题，如：在搜索引擎中，统计搜索最热门的10个查询词；在歌曲库中统计下载率最高的前10首歌等等。

说到top K（第一类）问题，脑袋中经常闪现的两个概念是：快速排序和堆。为什么是这两个概念呢？原因有：

给定一个枢轴元素，可以将数组按照这个元素分为两个部分。这个思路对于top K问题有什么作用？答案就是，根据partition的结果（返回的是枢轴的索引），可以轻松得到元素的个数。根据这个数字与K的关系递归划分，最后一定可以得出前面元素个数为k个的划分。

该思路的实现部分可见：http://blog.csdn.net/ohmygirl/article/details/7846544 快速排序求数组的第K个元素。

堆其实是一棵完全二叉树，堆对于两类问题有着很好的解决方案：a.排序问题：由于堆是一棵完全二叉树，所以采用堆堆n元数组进行排序，时间复杂度不会超过O(nlgn),而且只需要几个额外的空间。b.优先级队列。通过插入新元素和调整堆结构来维护堆的性质，每个操作所需要的时间都是O(lgn).

堆的常见实现是采用一个大小为n的数组存储元素，并且0号单元舍弃不用。对堆中的元素按照层次从上到下，从左到右的顺序依次编号。那么对于一个编号为i的元素：

    a：如果左孩子存在，那么左孩子的编号为2i

    b：如果右孩子存在，那么右孩子的编号为2*i + 1

    c：如果有父节点，那么父节点的编号为 i/2

    d：节点为叶节点的条件是左孩子且右孩子都为空，为空节点的条件是i<1或者i>n

堆的设计对于处理top K问题十分方便。首先设置一个大小为K的堆（如果求最大top K,那么用最小堆，如果求最小top K,那么用最大堆），然后扫描数组。并将数组的每个元素与堆的根比较，符合条件的就插入堆中，同时调整堆使之符合堆的特性，

关注

专栏目录