寻找最大的K个数

最新推荐文章于 2019-07-21 16:02:08 发布

原创

最新推荐文章于 2019-07-21 16:02:08 发布 · 3.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#string #pivot #mina #null #input #command

该博客讨论了在大规模数据中寻找前K个最大数的两种方法：快速排序和堆排序。对于小规模数据，可以使用排序法；对于大规模整数，快排和堆排序在内存管理和效率上各有优劣。文中提供了C/C++实现代码，通过宏定义切换两种方法，并给出了实际运行的时间成本。

此题多数互联网公司都有提及，这里简单描述一下。

首先，被问到这题应该先询问数据规模与数据分布。如果数据规模比较小，在千数量级，采用O（nlgn）排序取前K个即可。如果数据为整形，且分布范围不大，可以考虑计数排序，在线性时间中求解。

其次，如果不是上面讨论的情况，就是大规模一般情况。数据集可能在10亿个整形数中取最大的1W个。10亿个整形数全部装入内存大概需要4G空间。

以下采用两种方法：

1、快排方法，快排采用分治思想，每次把数组分成两部分，所以这里关键就是找到第K大的数的那次划分，前一部分数组就是我们需要的。

2、堆方法，1方法的不足是需要把所有数据装入内存，如果内存空间不足，系统颠簸，性能必然下降。如果取最大的K个数，可以先用前K个数建立一个最小堆，然后每次读入一个之后的数据与堆顶元素比较，如果比堆顶元素大则替换，并且heapify维护堆性质。

C/C++源码：

代码通过宏定义QUICK来切换快排方法与堆方法

其中堆方法不需要把所有数据读入内存，但这里为了屏蔽从文件读数据的时间影响，采用先把数据都读入再处理方法，并且为了验证结果正确，结果都把前K个数排序。

#include <iostream> #include <stack> #include <cassert> #include <cstring> using namespace std; const int num_per_line = 10; int string_to_num(const char* str){ int len = strlen(str), sum=0; for(int i=0;i<len;i++) sum = sum*10 + str[i]-'0'; return sum; } int deal_opt(string& in,string& out,int& n, int& k, int argc, char *argv[]){ for(int i=1;i<argc;i++){ if(!strncmp("-i",argv[i],2) && i<argc-1){ in = argv[i+1]; i++; }else if(!strncmp("-o",argv[i],2) && i<argc-1){ out = argv[i+1]; i++; }else

最低0.47元/天解锁文章