什么是Top - k问题?
比如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。
对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能数据都不能一下子全部加载到内存中)。
最佳的方式就是用堆来解决,基本思路如下:
1. 用数据集合中前K个元素来建堆前k个最大的元素,则建小堆,前k个最小的元素,则建大堆
2. 用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素。
代码实现如下:
//用堆来解决topk问题
void PrintTopK(int* a, int n, int k)
{
int i,j;
// 1. 建堆--用a中前k个元素建堆
int parent=(k-1)/2;
for(i=parent;i>=0;i--){
AdjustDown(a,i,k);
}
// 2. 将剩余n-k个元素依次与堆顶元素交换,不满则则替换
for(i=k+1;i<n;i++){
if(a[i]>a[0]){
swap(a,0,i);
AdjustDown(a,0,k);
}
}
for(i=0;i<k;i++){
printf("%d ",a[i]);
}
}
void TestTopk()
{
int n = 10000;
int* a = (int*)malloc(sizeof(int)*n);
srand(time(NULL));
for (size_t i = 0; i < n; ++i)
{
a[i] = rand() % 1000000;
}
a[5] = 1000000 + 1;
a[1231] = 1000000 + 2;
a[531] = 1000000 + 3;
a[5121] = 1000000 + 4;
a[115

Top-K问题在大数据场景下避免全量排序,通常采用堆来解决。通过建立小堆或大堆,处理数据集中前K个最大或最小元素,然后逐步与剩余元素比较更新堆,最终获得所需结果。代码实现中展现了这一过程。
最低0.47元/天 解锁文章
1409

被折叠的 条评论
为什么被折叠?



