TOPK问题的概念及思路
TOPK问题:即求数据结合中前K个最大的元素或最小的元素,一般情况下数据量都比较大。
比如:专业前10名,世界500强、富豪榜、游戏前100的活跃玩家等。
TOP问题,能想到的最佳单的方式就是排序,但是,如果数据量非常大,排序就不太可取了(可能数据不能一下子全部加载到内存当中,也就是说,内存装不了这么大的数据),最大的办法就是用堆来解决,基本思路如下:
1.用数据集合前K个数据来建堆
1)前K个最大的元素,则建小堆
2)前K个最小的元素,则建大堆
2.用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素
TOPK问题的实现
void AdjustUp(HPDtaType* a, int chlid)
{
int parent = 0;
parent = (chlid - 1) / 2;
while (chlid)//当chlid为零时,循环停止
{
if (a[parent] > a[chlid])//当孩子结点大于双亲结点时,就进行交换,
{
HPDtaType tmp = a[chlid];
a[chlid] = a[parent];
a[parent] = tmp;
chlid = parent;
parent = (chlid - 1) / 2;
}
else
{
break;
}
}
}
void Adjustdown(HPDtaType* a, int n, int partent)
{
int chlid = 0;
chlid = partent * 2 + 1;
while (chlid < n)
{
if (chlid+1<n&&a[chlid + 1] < a[chlid])
{
chlid++;
}
if (a[chlid] < a[partent])
{
Swap(&a[chlid], &a[partent]);
partent = chlid;
chlid = partent;
}
else
{
break;
}
}
}
void HeapInit(HP*hp)//堆的初始化
{
hp->a = NULL;
hp->capacity = hp->size = 0;
}
void HeapDestroy(HP*hp)//堆的销毁
{
free(hp->a);
hp->a = NULL;
hp->capacity = hp->size = 0;
}
void HeapPush(HP*hp, HPDtaType x)//往堆里压数据
{
if (hp->capacity == hp->size)
{
int newcapacity = hp->capacity == 0 ? 4 : hp->capacity * 2;
HPDtaType* tmp = realloc(hp->a, sizeof(HPDtaType)*newcapacity);//如果数组的内存不够,就进行扩容
if (tmp == NULL)
{
printf("realloc fail\n");//如果realloc失败就提示提示并退出
exit(-1);
}
hp->a = tmp;
hp->capacity = newcapacity;
}
hp->a[hp->size] = x;
AdjustUp(hp->a, hp->size);
hp->size++;
}
void HeapPrint(HP*hp)//打印数组
{
for (int i = 0; i < hp->size; i++)
{
printf("%d ", hp->a[i]);
}
printf("\n");
}
HPDtaType HeapTop(HP*hp)
{
return hp->a[0];
}
这是我们要用到的接口函数
void PrintTopK(int*a, int n, int k)
{
HP hp;
HeapInit(&hp);
for (int i = 0; i < k; i++)
{
HeapPush(&hp, a[i]);
}
//剩下的N-K个数跟堆顶去作比较,比他大,就替换他进堆
for (int i = k; i < n; i++)
{
if (a[i]>HeapTop(&hp))
{
hp.a[0] = a[i];
Adjustdown(hp.a, hp.size, 0);
}
}
HeapPrint(&hp);
HeapDestroy(&hp);
}
void TestTopk()
{
int n = 1000000;
int* a = (int*)malloc(sizeof(int)*n);
srand(time(0));
for (size_t i = 0; i < n; ++i)
{
a[i] = rand() % 1000000;
}
// 再去设置10个比100w大的数
a[9] = 1000000 + 1;
a[1231] = 1000000 + 2;
a[5355] = 1000000 + 3;
a[51] = 1000000 + 4;
a[15] = 1000000 + 5;
a[2335] = 1000000 + 6;
a[9999] = 1000000 + 7;
a[76] = 1000000 + 8;
a[423] = 1000000 + 9;
a[3144] = 1000000 + 10;
PrintTopK(a, n, 10);
}
int main()
{
TestTopk();
return 0;
}
在数组里存了 一百万个数,然后用堆进行排序,最后选出前十个最大的数