【数据结构】找出N个数据中最大的前k个数据(利用堆排序)

原创 2016年05月30日 17:18:55

我们举例,假若从10000万个数里选出前100个最大的数据。


首先我们先分析:既然要选出前100个最大的数据,我们就建立一个大小为100的堆(建堆时就按找最大堆的规则建立,即每一个根节点都大于它的子女节点),然后再将后面的剩余数据若符合要求就插入堆中,不符合就直接丢弃该数据。


那我们现在考虑:确定是该选择最大堆的数据结构还是最小堆的数据结构呢。


分析一下:

若选用最大堆的话,堆顶是堆的最大值,我们考虑既然要选出从10000万个数里选出前100个最大的数据,我们在建堆的时候,已经考虑了最大堆的特性,那这样的话最大的数据必然在它顶端。假若真不巧,我开始的前100个数据中已经有这10000个数据中的最大值了,那对于我后面剩余的10000-100的元素再想入堆是不是入不进去了!!!所以,选用最大堆从10000万个数里选出前100个最大的数据只能找出一个,而不是100个。


那如果选用最小堆的数据结构来解决,最顶端是最小值,再次遇到比它大的值,就可以入堆,入堆后重新调整堆,将小的值pass掉。这样我们就可以选出最大的前K个数据了。言外之意,假若我们要找出N个数据中最小的前k个数据,就要用最大堆了。



代码实现(对于最大堆最小堆的代码,若有不明白的地方,大家可以查看我的博客http://10740184.blog.51cto.com/10730184/1767076):

#define _CRT_SECURE_NO_WARNINGS 1
#include<iostream>
using namespace std;

#include<assert.h>

void AdjustDown(int* a, int parent, int size)
{
    int child = 2 * parent + 1;
    while (child < size)
    {
        if (child + 1 < size && a[child] > a[child + 1])
        {
            child++;
        }
        if (a[parent]>a[child])
        {
            swap(a[parent], a[child]);
            parent = child;
            child = 2 * parent + 1;
        }
        else
        {
            break;
        }
    }
}


void Print(int* a, int size)
{
    cout << "前k个最大的数据:" << endl;
    for (int i = 0; i < size; i++)
    {
        cout << a[i] << "  ";
    }
    cout << endl;
}


int* HeapSet(int*a,int N,int K)
{
    assert(a);
    assert(K > 0);
    int* arr = new int[K];
    //将前K个数据保存
    for (int i = 0; i < K; i++)
    {
        arr[i] = a[i];
    }

    //建堆
    for (int i = (K-2)/2; i >=0; i--)
    {
        AdjustDown(arr,i,K);
    } 

    //对剩余的N-K个元素比较大小
    for (int i = K; i < N; i++)
    {
        if (arr[0]<a[i])
        {
            arr[0] = a[i];
            AdjustDown(arr, 0, K);
        }
    }

    return arr;
    delete[] arr;
}


void Test()
{
    int arr[] = { 12, 2, 10, 4, 6, 8, 54, 67, 25, 178 };
    int k = 5;
    int* ret = HeapSet(arr, sizeof(arr) / sizeof(arr[0]), k);
    Print(ret, k); 
}


int main()
{
    Test();
    system("pause");
    return 0;
}


由此可以看出,时间复杂度为:K+(K-2)/2*lgn+(N-K)*lgn  -->  O(N)

空间复杂度为:K-->O(1)。

本文出自 “Han Jing's Blog” 博客,请务必保留此出处http://10740184.blog.51cto.com/10730184/1768075

编程破解CMOS密码

编程破解CMOS密码 --------------------------------------------------------------------------------   如果你忘记了...
  • gnuljf
  • gnuljf
  • 2001-05-10 13:08:00
  • 897

【编程之美】读书笔记:寻找最大的K个数

目录(?)[-] 方法一:常规解法,先排序(时间复杂度为O(N*logN))方法二:利用快速排序原理(时间复杂度O(N*logK)(掌握)方法三:利用最小堆的原理(时间复杂度为O(N*logK)...
  • xiaoding133
  • xiaoding133
  • 2012-10-02 19:49:02
  • 21650

面试题: 求N个数中前k个大的数(大数据)

解题思路:一般思路就是将N个数排序后,取前k个数就ok。但是如果N个数是几十亿个数,加载不到内存怎么办?这就需要另外一种思路了,那就是利用堆。 具体的思路是:先建一个k个数的小堆,然后从k+1个数往...
  • bin_ge_love
  • bin_ge_love
  • 2016-06-22 21:50:15
  • 3193

【Top-k问题】如何从海量数据中找出前k大数

1. 问题描述 在大规模数据处理中,常遇到的一类问题是,在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常称为“top K”问题,如:在搜索引擎中,...
  • suibianshen2012
  • suibianshen2012
  • 2016-07-05 17:24:42
  • 2255

在一亿个数中查找最大的k个数(k << 1,000,000,000)

在一亿个整数中查找最大(小)的k个数(k         之前跟一同事说起互联网公司的面试题,他说一般思路是先排序,然后再处理数据肯定没错。是不是这样的呢?对于这个问题,我们想想如下的几个方法:  ...
  • winshining
  • winshining
  • 2015-12-23 22:24:14
  • 1436

找出一个数组里面前K个最大数

前言:今天早上来实验室,同桌问了我一个问题:找出一个数组里面前K个最大数的高效算法。最近正好在看数据结构和算法相关内容,便以己之力帮她思考了思考。 问题:找出一个数组里面前K个最大数。 解...
  • wwang196988
  • wwang196988
  • 2011-07-20 09:18:00
  • 10059

Java堆排序,取得前TopN个数

java 堆排序 ,取得海量数据的前N个值
  • hpf911
  • hpf911
  • 2014-04-29 12:28:41
  • 3662

c语言堆排序解析

堆排序 在堆排序中,我们可以将顺序表看成一颗完全的二叉树 二叉树知识回顾:  从1开始对二叉树中的每个节点顺序编号   序列 : [  # , C, H, G, E, A, D, I, ...
  • pangqiandou
  • pangqiandou
  • 2016-12-03 23:40:27
  • 1272

第5题:查找最小的K个元素

欢迎转载,转载请务必注明出处:http://blog.csdn.net/alading2009/article/details/44752297第5题:输入n个整数,输出其中最小的K个。(数组) 例...
  • alading2009
  • alading2009
  • 2015-03-30 16:01:01
  • 545

c语言最小堆的实现-优先队列

libevent 中有定时事件的管理,用户可以把超时的定时事件插入到 管理器中,当时间到了之后触发用户的回调函数处理; 查看了源码发现,定时器的数据结构其实是由最小堆来实现的。 优先队列为完全二叉树,...
  • stayneckwind2
  • stayneckwind2
  • 2017-02-25 15:07:48
  • 696
收藏助手
不良信息举报
您举报文章:【数据结构】找出N个数据中最大的前k个数据(利用堆排序)
举报原因:
原因补充:

(最多只允许输入30个字)