有一亿个随机数,不排序如何找出其中位数

题目:10G 个整数,乱序排列,要求找出中位数。内存限制为 2G。只写出思路即可(内存限制为 2G的意思就是,可以使用2G的空间来运行程序,而不考虑这台机器上的其他软件的占用内存)。

 

关于中位数:数据排序后,位置在最中间的数值。即将数据分成两部分,一部分大于该数值,一部分小于该数值。中位数的位置:当样本数为奇数时,中位数=(N+1)/2 ; 当样本数为偶数时,中位数为N/21+N/2的均值(那么10G个数的中位数,就第5G大的数与第5G+1大的数的均值了)。

 

分析:明显是一道工程性很强的题目,和一般的查找中位数的题目有几点不同。
1.
原数据不能读进内存,不然可以用快速选择,如果数的范围合适的话还可以考虑桶排序或者计数排序,但这里假设是32位整数,仍有4G种取值,需要一个16G大小的数组来计数。

2. 若看成从N个数中找出第K大的数,如果K个数可以读进内存,可以利用最小或最大堆,但这里K=N/2,5G个数,仍然不能读进内存。

3. 接上,对于N个数和K个数都不能一次读进内存的情况,《编程之美》里给出一个方案:设k<K,k个数可以完全读进内存,那么先构建k个数的堆,先找出第0k大的数,再扫描一遍数组找出第k+12k的数,再扫描直到找出第K个数。虽然每次时间大约是nlog(k),但需要扫描ceil(K/k) 次,这里要扫描5次。

 

解法:首先假设是32位无符号整数。
1.
读一遍10G个整数,把整数映射到256M个区段中,用一个64位无符号整数给每个相应区段记数。
说明:整数范围是0 - 2^32 - 1,一共有4G种取值,映射到256M个区段,则每个区段有164G/256M = 16)种值,每16个值算一段, 015是第1段,1631是第2段,……2^32-16 2^32-1是第256M段。一个64位无符号整数最大值是08G-1,这里先不考虑溢出的情况。总共占用内存256M×8B=2GB

2. 从前到后对每一段的计数累加,当累加的和超过5G时停止,找出这个区段(即累加停止时达到的区段,也是中位数所在的区段)的数值范围,设为[aa+15],同时记录累加到前一个区段的总数,设为m。然后,释放除这个区段占用的内存。

3. 再读一遍10G个整数,把在[aa+15]内的每个值计数,即有16个计数。

4. 对新的计数依次累加,每次的和设为n,当m+n的值超过5G时停止,此时的这个计数所对应的数就是中位数。

 

总结:
1.
以上方法只要读两遍整数,对每个整数也只是常数时间的操作,总体来说是线性时间。

2. 考虑其他情况。
若是有符号的整数,只需改变映射即可。若是64为整数,则增加每个区段的范围,那么在第二次读数时,要考虑更多的计数。若过某个计数溢出,那么可认定所在的区段或代表整数为所求,这里只需做好相应的处理。噢,忘了还要找第5G+1大的数了,相信有了以上的成果,找到这个数也不难了吧。

3. 时空权衡。
花费256个区段也许只是恰好配合2GB的内存(其实也不是,呵呵)。可以增大区段范围,减少区段数目,节省一些内存,虽然增加第二部分的对单个数值的计数,但第一部分对每个区段的计数加快了(总体改变??待测)。

4. 映射时尽量用位操作,由于每个区段的起点都是2的整数幂,映射起来也很方便。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,我会尽力回答你的问题。 对于C++生成随机数,可以使用rand()函,该函可以生成一个0到RAND_MAX之间的随机整。具体使用方法如下: ```c++ #include <cstdlib> #include <ctime> int main() { srand((unsigned)time(NULL)); // 初始化随机数生成器 int random_num = rand(); // 生成随机数 return 0; } ``` 对于基排序算法,其主要思想是将待排序的元素按照位进行分解,然后按照个、十、百等位依次排序,最终得到有序序列。具体的步骤如下: 1. 找到排序列中最大的位,记为d; 2. 对于每一位(从个位开始到最高位),进行稳定排序(稳定排序保证相同大小的元素在排序后相对位置不变); 3. 重复步骤2,直到排序完成。 其中,中间的稳定排序采用计排序算法。计排序算法的主要思想是统计每个元素在序列中出现的次,然后根据元素出现次对元素进行排序。具体的步骤如下: 1. 统计待排序列中每个元素出现的次; 2. 计算小于等于每个元素的元素个,得到每个元素在有序序列中的位置; 3. 将每个元素放置到有序序列中对应的位置; 4. 重复步骤1~3,直到所有元素都放置到有序序列中。 关于时间复杂度,基排序算法的时间复杂度为O(d*(n+k)),其中d为最大的位,n为待排序序列的长度,k为计排序算法中元素的范围。计排序算法的时间复杂度为O(n+k)。 希望以上回答能够对你有所帮助!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值