Top K问题是指从一个数据集中找到前K个最大(或最小)的元素。解决这个问题的方法取决于数据集的范围和大小。
范围小:如果数据集中的元素范围较小,可以使用计数排序的思想。首先,创建一个计数数组,然后遍历数据集,统计每个元素出现的次数。最后,遍历计数数组,找到前K个最大(或最小)的元素。
#include <iostream>
#include <vector>
// 获取数据集中前K个最大的元素
std::vector<int> getTopK(const std::vector<int>& data, size_t K) {
size_t maxValue = /* 数据集中的最大值 */;
std::vector<int> count(maxValue + 1);
for (int x : data) {
count[x]++;
}
std::vector<int> topK;
for (size_t i = maxValue; i > 0 && topK.size() < K; i--) {
for (size_t j = 0; j < count[i] && topK.size() < K; j++) {
topK.push_back(i);
}
}
return topK;
}
int main() {
std::vector<int> data{ /* 数据集 */ };
size_t K = 10;
std::vector<int> topK = getTopK(data, K);
for (int x : topK) {
std::cout << x << ' ';
}
std::cout << std::endl;
}
范围大:如果数据集中的元素范围较大,可以使用堆排序的思想。首先,创建一个大小为K的最小(或最大)堆,然后遍历数据集,将每个元素与堆顶元素进行比较。如果当前元素比堆顶元素大(或小),则用当前元素替换堆顶元素,并调整堆。最后,堆中剩余的K个元素就是前K个最大(或最小)的元素。
class Solution {
public:
vector<int> getLeastNumbers(vector<int>& arr, int k) {
if(k == 0) return {};
priority_queue<int, vector<int>, less<int>> pq;
for(auto x : arr) {
if(pq.size() < k) pq.emplace(x);
else if(x < pq.top()){
pq.pop();
pq.emplace(x);
}
}
vector<int> ans;
while(pq.size()) {
ans.emplace_back(pq.top());
pq.pop();
}
return ans;
}
};
范围超大:如果数据集非常大,无法一次性读入内存,则可以使用外部排序的思想。首先,将数据集分成多个块,每个块能够一次性读入内存。然后,对每个块进行排序,并找到每个块中的前K个最大(或最小)的元素。最后,将所有块中的前K个元素合并起来,再次使用上述方法找到前K个最大(或最小)的元素。
class Solution {
public:
vector<int> getLeastNumbers(vector<int>& arr, int k) {
const int num_blocks = 4;
vector<int> tmp;
vector<vector<int>> blocks(num_blocks);
for(int i = 0; i < arr.size(); ++i) {
blocks[i % 4].emplace_back(arr[i]);
}
for(int i = 0; i < num_blocks; ++i) {
sort(blocks[i].begin(), blocks[i].end());
for(int j = 0; j < k and j < blocks[i].size(); ++j)
tmp.emplace_back(blocks[i][j]);
}
sort(tmp.begin(), tmp.end());
tmp.resize(k);
return tmp;
}
};