TopK问题

从海量数据中找到 top K个数据

分析:

数据量很大的情况下,要找到最小/大的K条数据,通常使用堆排序求最小的K个数,用大顶堆,求最大的K个数,用小顶堆

如果数据量很大, 不能一次读入内存,可对原始数据进行分组,获得每组数据的 top K,然后合并筛选后的数据,再找 topK

寻找最小的K个元素的算法:

void HeapAdjust(int* a,int s,int len)
{
	int temp=a[s];
	int j;
	for(j=2*s;j<=len;j*=2)
	{
		if(j<len && a[j]<a[j+1])
			j++;
		if(a[j]<=temp)
			break;
		a[s]=a[j]; s=j;
	}
	a[s]=temp;
}
int * topK(int nums[],int len,int k)
{
	if(k>=len) return nums;
	int* res=new int[k];
	for(int i=0;i<k;i++)
		res[i]=nums[i];
	//初始化大顶堆
	for(int i=(k-1)/2;i>=0;i--)
		HeapAdjust(res,i,k-1);
	// 获得topK
	for(int i=k;i<len;i++)
	{
		if(nums[i]<res[0])
		{
			res[0]=nums[i];
			HeapAdjust(res,0,k-1);
		}
	}
	return res;
}

寻找最大的K个元素的算法:

void HeapAdjust(int* a,int s,int len)
{
	int temp=a[s];
	int j;
	for(j=2*s;j<=len;j*=2)
	{
		if(j<len && a[j]>a[j+1])
			j++;
		if(a[j]>=temp)
			break;
		a[s]=a[j]; s=j;
	}
	a[s]=temp;
}
int * topK(int nums[],int len,int k) //len为原数组长度
{
	if(k>=len) return nums;
	int* res=new int[k];
	for(int i=0;i<k;i++)
		res[i]=nums[i];
	//初始化小顶堆
	for(int i=(k-1)/2;i>=0;i--)
		HeapAdjust(res,i,k-1);
	// 获得topK
	for(int i=k;i<len;i++)
	{
		if(nums[i]>res[0])
		{
			res[0]=nums[i];
			HeapAdjust(res,0,k-1);
		}
	}
	return res;
}

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值