面试题: 40亿个数中快速查找

最新推荐文章于 2025-09-01 22:40:28 发布

原创最新推荐文章于 2025-09-01 22:40:28 发布 · 1k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #面试 #数据结构

在40亿个数组查找一个数是否存在(一个面试题)

给定一个数组nums, 满足条件:

0 <= nums[i] <= 4*1e9
0 <= nums.length() <= 4*1e9

思考

数据范围比较大，同时数据的值也比较大，就相当于在40亿个数中找某个数是否存在
使用顺序查找，时间复杂度O(n), 显然能找到，但是时间消耗太多了
可以使用二分算法，先对数组进行排序，时间复杂度为O(logn), 但数据量太大了，时间消耗还是很大

因此引入一种新的算法，采用以空间换时间的方式来实现快速的查找

位图算法

引入一个集合

15	14	13	12	11	10	9	8	7	6	5	4	3	2	1	0
1	0	0	0	1	1	0	1	1	0	0	1	0	0	0	1

用一个bit位来表示一个数，1表示这个数存在，0表示这个数不存在
n 个bit就能表示0~n-1, 如图表示存在[0,4,7,8,10,11,15]，也就是说我们可以使用很多个bit位来表示数字是否存在

总共需要的存储空间

那对于40亿个数需要多少一共需要40亿+1个bit位，换算得一共需要:
sum_char = 4*1e9 / 8 + 1个字节(/运算会向下取整需要+1)

使用给定的数据初始化(这里可能讲得不是很清楚，只要明白用bit位来存储数据这个思路就可以了，后面代码中也有解释)

前面已经得到了所需的存储这些数的空间，接下来就是把这些数放在这个空间内，应该输入存在呢？我们使用下面的方法
首先对于一个数n我们首先需要知道它在空间中所处的位置，然后将这个位置位置为1就表示空间中存在这个数
- 先确定所在的字节pos1 = n / 8, 比如说8 在第2个字节，9在第2个字节，4在第一个字节
- 在确定所在字节的具体位置pos2 = n % 8, 比如8 在第2个字节的0号位置上，9在第二个字节的1号位置上，4在第一个字节的4号位置上
- 所以n 的最终位置为pos1 + pos2 （pos1和pos2操作的空间大小不一样，写代码时需要注意）
为了快速将pos设置为1我们还可以使用位运算将pos 的值 | 1

查找给定的数

参考前面的思路，找到n所在的位置然后判断所在位置是0还是1，为0表示不存在，为1表示存在
同样判断是否为1也能使用位运算 pos的值 & 1 （找位置同上）

代码如下

#include <iostream>

// 这里需要传入初始化的数据，为了方便直接直接加入%3的数
void Init(char* data, long long maxSize) {
	for (long long i = 0; i <= maxSize; i++) {
		if (i % 3 == 0) {
			char* pos = data + i / 8; // i所在字节的起始位置
			*pos = *pos | (1 << i % 8); // 设置为1，对i所在字节后的8个bit位的操作
		}
	}
}
// 查找操作
bool Check(char* data, long long n){
	char* pos = data + n / 8;
	bool ret = *pos & (1 << n % 8);
	return ret; //也可以一步写
}

int main() {
	const long long maxSize = 4 * 1e9;
	int sum_char = maxSize / 8 + 1; 

	// 申请空间
	char* data = (char*)malloc(sizeof(char) * sum_char);

	Init(data, maxSize);

	long long num;
	std::cin >> num;
	if (Check(data, num)) {
		std::cout << "Yse" << std::endl;
	}
	else {
		std::cout << "No" << std::endl;
	}
}