题目链接:347. 前 K 个高频元素
题目:
给你一个整数数组 nums 和一个整数 k ,请你返回其中出现频率前 k 高的元素。你可以按 任意顺序 返回答案。
示例 1:
输入: nums = [1,1,1,2,2,3], k = 2
输出: [1,2]
示例 2:
输入: nums = [1], k = 1
输出: [1]
提示:
- 1 <= nums.length <= 105
- k 的取值范围是 [1, 数组中不相同的元素的个数]
- 题目数据保证答案唯一,换句话说,数组中前 k 个高频元素的集合是唯一的
进阶:你所设计算法的时间复杂度 必须 优于 O(n log n) ,其中 n 是数组大小。
思路和算法:
思考本道题,主要考虑以下三方面内容:
(1)统计元素出现次数;
(2)对出现次数进行排序;
(3)找出前k个高频元素。
首先 统计元素出现次数可以交给map来统计;
然后 是对出现次数进行排序,这里我们可以使用一种容器适配器——优先级队列。在这里先了解优先级队列,它其实就是一个披着队列外衣的堆,因为优先级队列对外接口只是从队头取元素,从队尾添加元素,看起来就像一个队列。但是,优先级队列内部元素是自动依照元素的权值进行排列。缺省情况下,优先级队列利用大顶堆完成对元素的排序,这个大顶堆是以vector为表现形式的完全二叉树。
这里可能会有个疑问,就是为什么不用快排对出现次数进行排序,而是用优先级队列。使用快排要将map转换为vector结构,然后才能对整个数组进行排序,而在这种场景下,我们其实只需要维护k个有序的序列就可以了,所以使用优先级队列是最优的。
这里还要思考一个问题,那就是究竟用大顶堆呢还是小顶堆。这里如果想当然地觉得题目要求k个高频元素就果断使用大顶堆,那么问题就来了,定义一个大小为k的大顶堆,在每次移动更新大顶堆的时候,每次弹出都会把最大的元素弹出去,那怎么能保留下来前k个高频元素呢?!所以,我们要用小顶堆,因为要获得k个高频元素,只有小顶堆每次将最小的元素弹出,最后小顶堆里积累的才是前k个高频元素。
最后,找到了前k个高频元素后就需要输出到结果集中,因为小顶堆先弹出的是最小的,所以需要倒序输出到结果数组里。
代码(c++):
class Solution {
public:
class cmp {
public:
//定义一个小顶堆
bool operator()(const pair<int, int> a, const pair<int, int> b) {
return a.second > b.second;
}
};
vector<int> topKFrequent(vector<int>& nums, int k) {
unordered_map<int, int> hash; //key:nums元素 value:元素出现次数
for (int x : nums) {
hash[x]++;
}
//定义一个小顶堆,大小为k,对频率进行排序
priority_queue<pair<int, int>, vector<pair<int, int>>, cmp> pque;
//遍历哈希表,取出哈希表中k个元素放入优先级队列中
for (unordered_map<int, int>::iterator it = hash.begin(); it != hash.end(); ++it) {
pque.push(*it);
if (pque.size() > k) { //保证堆中元素个数始终为k
pque.pop();
}
}
vector<int> res(k);
//遍历队列中的元素,将元素放入结果集中
//由于队列是小顶堆,每次弹出元素的出现频率是其中最小的,所以反着顺序放入数组
for (int i = k - 1; i >= 0; --i) {
res[i] = pque.top().first;
pque.pop();
}
return res;
}
};
这里有个问题大家可能会感兴趣,那就是优先级队列的自定义比较运算在建堆时是如何应用的,为什么左大于右就会建立小顶堆,否则建立大顶堆。这个确实很迷惑,因为我们在写快排的cmp函数的时候,return left > right;
就是从大到小,降序;否则就是从小到大,升序。这里优先级队列的定义正正好反过来了,猜测可能和优先级队列的源码实现有关,底层实现上优先队列队首指向后面,队尾指向最前面的缘故。
这里我自己弄了个能记住大小堆的方法:
(1)大顶堆:return a < b; 可以理解为 小 --------> 大,只需要记住由小到大排列,最大值在最右边就是大顶堆;
(2)小顶堆:return a > b;可以理解为 大 ---------> 小,记住由大到小排列,最小值在最右边就是小顶堆。