Top - k问题

Top-K问题在大数据场景下避免全量排序,通常采用堆来解决。通过建立小堆或大堆,处理数据集中前K个最大或最小元素,然后逐步与剩余元素比较更新堆,最终获得所需结果。代码实现中展现了这一过程。

什么是Top - k问题?

比如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。

对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能数据都不能一下子全部加载到内存中)。

最佳的方式就是用堆来解决,基本思路如下:

1. 用数据集合中前K个元素来建堆前k个最大的元素,则建小堆,前k个最小的元素,则建大堆

2.  用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素。

代码实现如下:

//用堆来解决topk问题 
void PrintTopK(int* a, int n, int k)
{
	int i,j;
 // 1. 建堆--用a中前k个元素建堆
   int parent=(k-1)/2;
   for(i=parent;i>=0;i--){
		
		AdjustDown(a,i,k);
	}
 // 2. 将剩余n-k个元素依次与堆顶元素交换,不满则则替换
    for(i=k+1;i<n;i++){
    	if(a[i]>a[0]){
    		swap(a,0,i);
    		AdjustDown(a,0,k);
		}
	}
	for(i=0;i<k;i++){
		printf("%d ",a[i]);
	}
}
void TestTopk()
{
 int n = 10000;
 int* a = (int*)malloc(sizeof(int)*n);
 srand(time(NULL));
 for (size_t i = 0; i < n; ++i)
 {
   a[i] = rand() % 1000000;
 }
 a[5] = 1000000 + 1;
 a[1231] = 1000000 + 2;
 a[531] = 1000000 + 3;
 a[5121] = 1000000 + 4;
 a[115
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值