《编程珠玑》
A题:给定一个最多包含40亿个随机排列的32位整数的顺序文件,找出一个不在文件中的32位整数。
1、在文件中至少存在这样一个数?
2、如果有足够的内存,如何处理?
3、如果内存不足,仅可以用文件来进行处理,如何处理?
答案:
1、32位整数,包括-2146473648~~2146473647,约42亿个整数,而文件中只有40亿个,必然有整数少了。
2、如果采用位数思想来存放,则32位整数最多需要占用43亿个位。约512MB的内存空间 (2^32/8=512MB)
可以采用位处理方法。然后判断每个int是否等于-1。因为-1的二进制表示是全1的。如果不等于-1。那么说明某一位没有置位。需要 进行处理。
3、内存不足,可以采用如下思想:
按最高位分为两段,没有出现的那个数,肯定在比较小的段里面。
如果比较少的段最高位为1,那么缺少的那个数的最高位也为1.
如果比较少的段最高位为0,那么少的那个数的最高位也是0.
依次按以上方法去处理每个位。算法复杂度为O(n)。每次处理的部分都是上一次的一半。累加之后是O(n).
收获:
从该问题中,思考问题方式的转变是巨大的。
1、内存足够的情况下,可使用位域位向量对每个数字进行标识(也可以用于对整数排序),降低了问题的复杂度。
2、内存不足的情况下,可以使用二分搜索,(针对整数的二进制表示,按位依次进行处理,每次都将问题规模减半)
扩展问题:
给定包含4 300 000 000个32位整数的顺序文件,如何找出一个出现至少两次的整数?