Ed Reingold关于查找40亿个随机排列的32位整数中不存在的某个整数(转载)

转载自http://blog.sina.com.cn/s/blog_4ce0162301013v81.html

题目:给定一个包含40亿个随机排列的顺序文件,找到一个不在文件中的32位整数,在有足够内存的情况下应该如何解决该问题?如果有几个外部的临时文件可用,但是仅有几百字节的内存,又该如何解决? 

(1)对于有足够内存的情况,完全可以采用位图存储的方法,详细内容看《编程珠玑》第一章。

(2)Ed Reingold 给出了另外一种解法。

 
    问题的关键是只要找到 一个数字,那么我们把问题简化一下,给定一个文件,里头最多包含16个4bit的整数,找到一个不在文件中的4bit整数。假设这十个数是 1 2 3 4 5 7 6 9 8 10。
 
  取出一个数字,如果是最高位为1,放到一个文件中,否则放到另外一个文件中。同时用两个计数器记录这两个文件中的数字个数。最高位为1或0的4bit数字有都只有8个。所以如果其中有一个文件(也可能两个都是)分过去的个数小于8个,那么遗漏的数字肯定在这个文件的这堆数字里头。

  
  高位为0, 1 2 3 4 5 6 7
  高位为1, 8 9 10
  
  高位为0的数字是7个,高位为1的数字个数为3个,显然这两堆都遗漏了数字(比如第一堆遗漏了0),
       如果有重复的数字,那么也有可能其中的一堆数字个数多余8,那么另外一堆肯定少于8
  选择数字个数少的那一堆,如此再继续区分第二高位为1跟为0的……以此类推,最后就找到了那个遗漏的数据
 
       如果有重复的数据怎么办,假设数据是9个7,一个8?
       比如第一次找,
       高位为0,7 7 7 7 7 7 7 7 7
       高位为1,8
       那选择个数少于16/2=8的那组数据继续就能找到,这里对第二堆数据(只有8,说明高位为1的只有一个数)很快就找到了9,10,11,12,13,14,15都是缺失的。

转载于:https://www.cnblogs.com/xiaowenchao/archive/2013/04/25/3042006.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值