寻找最大的K个数

该博客讨论了在大规模数据中寻找前K个最大数的两种方法:快速排序和堆排序。对于小规模数据,可以使用排序法;对于大规模整数,快排和堆排序在内存管理和效率上各有优劣。文中提供了C/C++实现代码,通过宏定义切换两种方法,并给出了实际运行的时间成本。
摘要由CSDN通过智能技术生成

此题多数互联网公司都有提及,这里简单描述一下。

首先,被问到这题应该先询问数据规模与数据分布。如果数据规模比较小,在千数量级,采用O(nlgn)排序取前K个即可。如果数据为整形,且分布范围不大,可以考虑计数排序,在线性时间中求解。

其次,如果不是上面讨论的情况,就是大规模一般情况。数据集可能在10亿个整形数中取最大的1W个。10亿个整形数全部装入内存大概需要4G空间。

以下采用两种方法:

1、快排方法,快排采用分治思想,每次把数组分成两部分,所以这里关键就是找到第K大的数的那次划分,前一部分数组就是我们需要的。

2、堆方法,1方法的不足是需要把所有数据装入内存,如果内存空间不足,系统颠簸,性能必然下降。如果取最大的K个数,可以先用前K个数建立一个最小堆,然后每次读入一个之后的数据与堆顶元素比较,如果比堆顶元素大则替换,并且heapify维护堆性质。

 

C/C++源码:

代码通过宏定义QUICK来切换快排方法与堆方法

其中堆方法不需要把所有数据读入内存,但这里为了屏蔽从文件读数据的时间影响,采用先把数据都读入再处理方法,并且为了验证结果正确,结果都把前K个数排序。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值