从10G个整数中找出中位数

10G 个整数中找出中位数(假设有 2G 可用内存)。

 

首先想到的是,用计数法来统计。但有 10G 个数,根本没有那么多内存可用。计数法排序可以认为是桶排序的一种特殊情形(桶间间隔为 1 ),因而考虑增大桶间间隔。

假设这些数都是 32 位数,都是无符号数(如果是有符号数则转为无符号数)。先设法先确定中位数的高 16 位,将中位数的高 16 位的所有可能值(值为 0 0xFFFF ),可看做 0x10000 个桶,第一遍扫描这 10G 个数(每次读入 2G ,读取 5 次),用计数排序法(这需要 256KB 内存)统计每个桶中数的个数。对统计结果处理,可找出所要求的中位数(第 5G 个数)所在的桶,以及在该桶所有数排序后的位置(假设为这些数中的第 M 大的数)。由于已经确定中位数的高 16 位,接着确定低 16 位的值,同样,可以将低 16 位的数值看做 0x10000 个桶,第二遍扫描这 10G 个数,过滤掉高 16 位值不是所求的数,对剩下的数的低 16 位用计数法统计。最后处理结果,直接输出所要求的中位数(第 M 大的数)。(注意,如果总个数是偶数,中位数是最中间的两个数的平均值。)

 

由于,一个 32 位数最大能表示 4G 。因此,计数时,最多只会有两个桶(或一个桶两次)出现溢出。必须还要设两个数,记录这两个桶编号。如果这 10G 个有一部分是负数,可以将这些数先转化为无符号数,统计时,只要注意桶大小排序是 0x8000 0xFFFFF (这部分为负值)、 0-0x7FFF

 

如果要求找出最大的 5G 个数。第二遍扫描时, 1G 内存用于读入文件, 1G 内存用于写入文件 ,这样只要 10 次读取, 5 次写入。第二遍扫描,过滤掉的高 16 位值若大于中位数的高 16 位值,则直接输出这个数,第二次统计时,再输出中位数后面的数。另外,上面提到的计数方法,实际上是 rapid sort ,而不是 counting sort ,无法保证所有输出的数的排序和原顺序相同,如果中位数所在桶的数比较少,可以申请空间保存这些数,或者进行第三遍扫描,按计数排序的处理方法,保证这些数按原顺序输出。

 

两次计数排序用的内存大小都是 256KB ,对现在主流 CPU ,都可以全部载入到 CPU 缓存,访问内存的额外开销小,性能不会差。

 


 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值