Top K Frequent Elements

1 篇文章 0 订阅
该问题要求在非空整数数组中找到出现频率最高的k个元素。解决方案可以采用映射结合最小堆的方法,同时需要自定义比较方式以确保堆中的元素是按频率降序排列。
摘要由CSDN通过智能技术生成

Given a non-empty array of integers, return the k most frequent elements.

For example,
Given [1,1,1,2,2,3] and k = 2, return [1,2].

Note: 

  • You may assume k is always valid, 1 ≤ k ≤ number of unique elements.

  • Your algorithm's time complexity must be better than O(n log n), where n is the array's size.

map加最小堆。

需要新定义比较方法。

class Solution {
    struct cmp {
        bool operator() (const pair<int,int> &a, const pair<int,int> &b)
        {
            return a.second>b.second;
        }
    };
public:
    vector<int> topKFrequent(vector<int>& nums, int k) {
        vector<int> ret;
        unordered_map<int ,int > Hash;
        for(int i=0; i<nums.size(); ++i){
            Hash[nums[i]]++;
        }
        priority_queue<pair<int ,int>,vector<pair<int,int>>,cmp> PQ;
        for(auto i = Hash.begin(); i != Hash.end(); ++i){
            if(PQ.size()!=k){
                PQ.push(*i);
            }
            else{
                if(i->second>PQ.top().second){
                    PQ.pop();
                    PQ.push(*i);
                }
            }
        }
        while(!PQ.empty()){
            ret.push_back(PQ.top().first);
            PQ.pop();
        }
        reverse(ret.begin(),ret.end());
        return ret;
    }
};
stl库中有partial_sort实质上也是用堆排序完成的。

Python调用Hadoop MapReduce Streaming实现数据处理是一个常见的技术应用场景,特别是在大数据分析领域。这里主要涉及三个任务: 1. **数据去重** (Distinct): 使用MapReduce,首先通过`map`函数读取输入数据,然后对每个键值对进行检查。如果键(通常是文本行的唯一标识)之前未出现过,就输出这个键值对到中间结果。在`reduce`阶段,由于所有相同的键会被聚在一起,只需过滤掉已经出现过的键即可。 ```bash # map阶段 cat input | sort | uniq -f1 | hadoop stream -mapper 'cat' -reducer 'echo' # reduce阶段(这里不需要额外操作,uniq -f1 已经实现了去重) ``` 2. **Top N** (Top K Frequent Elements): 这需要先计算每个元素的频率,再通过排序找出最常见的K个元素。`map`阶段可以统计元素出现次数,`reduce`阶段合并并计数,最后外部程序(如Shell脚本)可以筛选出Top K。这通常会涉及到多次迭代,直到找到目标。 3. **倒排索引** (Inverted Index): 倒排索引是一种将文档内容映射到包含它们的关键字列表的数据结构。在`map`阶段,每条记录会被分割成单词,并输出为键值对(单词,文件名)。`reduce`阶段会收集所有的单词及其关联的文件名,形成倒排索引。 ```bash # map阶段 cat input | grep -oE '\w+' | hadoop stream -mapper 'sort | cut -d " " -f1' -reducer 'echo' # reduce阶段 hadoop stream -mapper 'cut -d " " -f2' -reducer 'cat > inverted_index.txt' ``` 请注意,上述命令是简化的示例,实际应用中可能需要更复杂的逻辑,比如使用自定义的mapper/reducer脚本,并可能涉及其他工具如Pig或Spark等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值