【数据结构】找出N个数据中最大的前k个数据(利用堆排序)

我们举例,假若从10000万个数里选出前100个最大的数据。

首先我们先分析:既然要选出前100个最大的数据,我们就建立一个大小为100的堆(建堆时就按找最大堆的规则建立,即每一个根节点都大于它的子女节点),然后再将后面的剩余数据若符合要求就插入堆中,不符合就直接丢弃该数据。

那我们现在考虑:确定是该选择最大堆的数据结构还是最小堆的数据结构呢。

分析一下:
若选用最大堆的话,堆顶是堆的最大值,我们考虑既然要选出从10000万个数里选出前100个最大的数据,我们在建堆的时候,已经考虑了最大堆的特性,那这样的话最大的数据必然在它顶端。假若真不巧,我开始的前100个数据中已经有这10000个数据中的最大值了,那对于我后面剩余的10000-100的元素再想入堆是不是入不进去了!!!所以,选用最大堆从10000万个数里选出前100个最大的数据只能找出一个,而不是100个。

那如果选用最小堆的数据结构来解决,最顶端是最小值,再次遇到比它大的值,就可以入堆,入堆后重新调整堆,将小的值pass掉。这样我们就可以选出最大的前K个数据了。言外之意,假若我们要找出N个数据中最小的前k个数据,就要用最大堆了。

代码实现

#define _CRT_SECURE_NO_WARNINGS 1  
#include<iostream>  
using namespace std;  

#include<assert.h>  

void AdjustDown(int* a, int parent, int size)  
{  
    int child = 2 * parent + 1;  
    while (child < size)  
    {  
        if (child + 1 < size && a[child] > a[child + 1])  
        {  
            child++;  
        }  
        if (a[parent]>a[child])  
        {  
            swap(a[parent], a[child]);  
            parent = child;  
            child = 2 * parent + 1;  
        }  
        else  
        {  
            break;  
        }  
    }  
}  


void Print(int* a, int size)  
{  
    cout << "前k个最大的数据:" << endl;  
    for (int i = 0; i < size; i++)  
    {  
        cout << a[i] << "  ";  
    }  
    cout << endl;  
}  


int* HeapSet(int*a,int N,int K)  
{  
    assert(a);  
    assert(K > 0);  
    int* arr = new int[K];  
    //将前K个数据保存  
    for (int i = 0; i < K; i++)  
    {  
        arr[i] = a[i];  
    }  

    //建堆  
    for (int i = (K-2)/2; i >=0; i--)  
    {  
        AdjustDown(arr,i,K);  
    }   

    //对剩余的N-K个元素比较大小  
    for (int i = K; i < N; i++)  
    {  
        if (arr[0]<a[i])  
        {  
            arr[0] = a[i];  
            AdjustDown(arr, 0, K);  
        }  
    }  

    return arr;  
    delete[] arr;  
}  


void Test()  
{  
    int arr[] = { 12, 2, 10, 4, 6, 8, 54, 67, 25, 178 };  
    int k = 5;  
    int* ret = HeapSet(arr, sizeof(arr) / sizeof(arr[0]), k);  
    Print(ret, k);   
}  


int main()  
{  
    Test();  
    system("pause");  
    return 0;  
}  

由此可以看出,时间复杂度为:K+(K-2)/2*lgn+(N-K)*lgn –> O(N)
空间复杂度为:K–>O(1)。
本文出自 “Han Jing’s Blog” 博客,请务必保留此出处http://10740184.blog.51cto.com/10730184/1768075

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据结构与算法 排序算法 内排序 八大基础排序 选择排序 简单选择排序 思想 每次选择最大的数插入到末尾 做法 外层for循环控制次数 内层for循环找出最大的值的角标 找出最大角标后,进行交换 优化思路 同时获取最大值和最小值,然后分别插入数组的首部和尾部 堆排序 思想 使用大顶堆的思想来排序,每次建堆后交换 做法 总体:建堆-替换 建堆 只要左子树或右子树大于当根节点,则替换 替换后会导致下面的子树发生了变化,因此同样需要进行比较,直至各个节点实现父>子这么一个条件(递归) 交换排序 冒泡排序 思想 每次俩俩交换,将最大值交换到末尾 做法 外层for控制循环次数 内层for控制比较次数 每次循环之后,比较次数都会减少一次 优化思路 如果一趟排序后没有发生位置变化,那么此时就是有序了 快速排序 思想 每次将比支点小的放在支点左边,比支点大的放在支点右边 做法 外循环while只要i和j不碰撞查找 内层两个while循环分别查找出比支点小的和比支点大的角标 如果i<=j满足条件,就交换 一趟排序后,支点的左边都比支点小,支点右边都比支点大 只要满足L<j,i0的条件查找出要插入的何时位置 退出内层while循环后就找到了合适的位置插入 优化思路 二分查找插入,找合适位置的时候使用二分查找算法 希尔排序 思想 用增量来将数组进行分隔,直到增量为1。底层干的还是插入排序干的活 做法 最外层for外循环控制增量的数量,每次/2 第二层for循环控制每次增量那组开始进行插入排序,直至完毕 第三层while循环找到要插入到哪个位置 归并排序 思想 将两个已排好序的数组合并成一个有序的数组 做法 递归拆分出两个有序的数组,从mid的位置开始拆分,递归出口:只有一个值的时候就不用拆分了 合并两个有序的数据 分别往两个数组填充已有序的数据 比较两个数组的值谁小,谁小就放到我们的数组 如果比较完之后还有剩余的数据,那么用while直接添加到我们的总数组 优化思路 当递归到规模足够小时,利用插入排序 归并判断一下是否还有必要归并 只在排序开辟一次空间 基数(桶)排序 思想 分配,回收(分配到不同的位置上,然后回收)..不断分配..回收来进行排序,直到有序 做法 分配一个[array.length][10列]的二维数组来装我们的元素 最外层for循环控制要分配和回收的次数(根据最大值) 将元素的个、十、百位依次放到桶子上(第一次就是放个位,第二次放十位) 依据每列回收桶子,两个for循环 外排序 查找算法 二分查找 分块查找 哈希查找 贪心算法 求最小生成树的Prim算法和Kruskal算法 爬山问题 回溯算法 n皇后问题 动态规划Dynamic Planning 应用 求最长公共子序列LCS 矩阵连乘问题 爬楼梯问题 找零问题 0-1背包问题 分治算法Divide and Conquer 应用:归并排序 其它 Rabin fingerprints 文件指纹算法 BitMap 位图算法 BloomFilter 布隆过

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值