编程珠玑第二章问题A:给定一个最多包含40亿个随机排列的32位整数的顺序文件,找出一个不在文件中的32位整数,在具有足够内存的情况下如何解决问题,如果只有几百字节的内存呢。
分析:32位整数一共有2^32 = 4 294 967 296个数据,超出给定的40亿个,所以有缺失的。
内存足够的情况下,采用第一章的位图排序算法,8位一个字节,2^32/8=512MB;
如果内存只有几百字节,并且有若干外部存储文件呢。
无处不在的二分搜索
算法思想:将全部数据按某一位(0或1)分成两部分,如果没有缺失数据,那么两部分长度应该是相等的,如果不相等,那么缺失的数据就在数量少的那部分,再按照二分思想处理数量少的部分,以次类推
代码:
#include <iostream>
#include <vector>
using namespace std;
int Find_lost(vector<int> vec)
{
vector<int> arr = vec;
int num = 0;
int chkNum = 0;
while (1)
{
chkNum = 1 << chkNum;
vector<int> loca1; //保存该位为1的
vector<int> loca0; //保存该位为0的
for (int j = 0; j != arr.size(); j++) //划分
{
if (arr[j] & chkNum)
loca1.push_back(arr[j]);
else
loca0.push_back(arr[j]);
}
// cout << "loca1=" << loca1.size() << " " << "loca0=" << loca0.size() << endl; debug
if (loca1.size() > loca0.size()) //缺失的数该位是0
{
arr = loca0; //默认是0,所以不操作
}
else if (loca1.size() < loca0.size()) //缺失的数该位是1
{
arr = loca1;
num |= chkNum; //将该位置为1
}
else if (loca1.size() == loca0.size())
{
arr = loca1;
num |= chkNum;
}
if (arr.size() == 0)
{
break;
}
}
return num;
}
int main(int argc, char** argv)
{
vector<int> vec{ 0,1, 2, 3, 6, 8, 7,10 };
cout << Find_lost(vec) << endl;
system("pause");
return 0;
}
总结:
- 二分搜索的思想很重要,很常见
- 按位操作很常见,要掌握位运算符、移位运算符