TopK问题的三种思路

Top K问题是指从一个数据集中找到前K个最大(或最小)的元素。解决这个问题的方法取决于数据集的范围和大小。

范围小:如果数据集中的元素范围较小,可以使用计数排序的思想。首先,创建一个计数数组,然后遍历数据集,统计每个元素出现的次数。最后,遍历计数数组,找到前K个最大(或最小)的元素。

#include <iostream>
#include <vector>

// 获取数据集中前K个最大的元素
std::vector<int> getTopK(const std::vector<int>& data, size_t K) {
    size_t maxValue = /* 数据集中的最大值 */;
    std::vector<int> count(maxValue + 1);
    for (int x : data) {
        count[x]++;
    }

    std::vector<int> topK;
    for (size_t i = maxValue; i > 0 && topK.size() < K; i--) {
        for (size_t j = 0; j < count[i] && topK.size() < K; j++) {
            topK.push_back(i);
        }
    }

    return topK;
}

int main() {
    std::vector<int> data{ /* 数据集 */ };
    size_t K = 10;
    std::vector<int> topK = getTopK(data, K);
    for (int x : topK) {
        std::cout << x << ' ';
    }
    std::cout << std::endl;
}

范围大:如果数据集中的元素范围较大,可以使用堆排序的思想。首先,创建一个大小为K的最小(或最大)堆,然后遍历数据集,将每个元素与堆顶元素进行比较。如果当前元素比堆顶元素大(或小),则用当前元素替换堆顶元素,并调整堆。最后,堆中剩余的K个元素就是前K个最大(或最小)的元素。

class Solution {
public:
    vector<int> getLeastNumbers(vector<int>& arr, int k) {
        if(k == 0) return {};
        priority_queue<int, vector<int>, less<int>> pq;
        for(auto x : arr) {
            if(pq.size() < k) pq.emplace(x);
            else if(x < pq.top()){
                pq.pop();
                pq.emplace(x);
            }
        }
        vector<int> ans;
        while(pq.size()) {
            ans.emplace_back(pq.top());
            pq.pop();
        }
        return ans;
    }
};

范围超大:如果数据集非常大,无法一次性读入内存,则可以使用外部排序的思想。首先,将数据集分成多个块,每个块能够一次性读入内存。然后,对每个块进行排序,并找到每个块中的前K个最大(或最小)的元素。最后,将所有块中的前K个元素合并起来,再次使用上述方法找到前K个最大(或最小)的元素。

class Solution {
public:
    vector<int> getLeastNumbers(vector<int>& arr, int k) {
        const int num_blocks = 4;
        vector<int> tmp;
        vector<vector<int>> blocks(num_blocks);
        for(int i = 0; i < arr.size(); ++i) {
            blocks[i % 4].emplace_back(arr[i]);
        }
        for(int i = 0; i < num_blocks; ++i) {
            sort(blocks[i].begin(), blocks[i].end());
            for(int j = 0; j < k and j < blocks[i].size(); ++j)
                tmp.emplace_back(blocks[i][j]);
        }
        sort(tmp.begin(), tmp.end());
        tmp.resize(k);
        return tmp;
    }
};
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值