此题多数互联网公司都有提及,这里简单描述一下。
首先,被问到这题应该先询问数据规模与数据分布。如果数据规模比较小,在千数量级,采用O(nlgn)排序取前K个即可。如果数据为整形,且分布范围不大,可以考虑计数排序,在线性时间中求解。
其次,如果不是上面讨论的情况,就是大规模一般情况。数据集可能在10亿个整形数中取最大的1W个。10亿个整形数全部装入内存大概需要4G空间。
以下采用两种方法:
1、快排方法,快排采用分治思想,每次把数组分成两部分,所以这里关键就是找到第K大的数的那次划分,前一部分数组就是我们需要的。
2、堆方法,1方法的不足是需要把所有数据装入内存,如果内存空间不足,系统颠簸,性能必然下降。如果取最大的K个数,可以先用前K个数建立一个最小堆,然后每次读入一个之后的数据与堆顶元素比较,如果比堆顶元素大则替换,并且heapify维护堆性质。
C/C++源码:
代码通过宏定义QUICK来切换快排方法与堆方法
其中堆方法不需要把所有数据读入内存,但这里为了屏蔽从文件读数据的时间影响,采用先把数据都读入再处理方法,并且为了验证结果正确,结果都把前K个数排序。