使用bitset处理在海量数据中查询是否有某些数的存在
背景:是上亿无序的整数中查询某个数是否存在其中,
- 如果使用遍历的方法的话时间复杂度为n,如果我们要多次查询,那岂不是不行。
- 先进行排序,让后使用二分法查找,听上去还可以,但是对上亿的整数进行排序最优的时间复杂度为nlog(n),也不是很理想。
- 使用bitmap算法,每一个二进制位表示一个数,第100个bit表示整数100,依次类推。
我们可以借助c++中的bitset来实现。
设计:使用一个7亿大小的bitset来存放出现的数字,将从100到200000000之间的数全部置位1,表示这些数出现了。
然后统计从99999到90000000之间有多少数存在。
#include <iostream>
#include <vector>
#include <algorithm>
#include <numeric>
#include <stack>
#include <bitset>
#include <time.h>
using namespace std;
int main() {
auto *nums = new bitset<700000000>;
for(long long i=100;i<200000000;i++){
nums->set(i,1);
}
clock_t start,end;
start = clock();
long long sum = 0;
for(long long i=99999;i<90000000;i++){
if(nums->test(i)){
sum++;
}
}
end = clock();
cout<<sum<<endl;
cout<<"used time:"<<double(end-start)/CLOCKS_PER_SEC<<"s"<<endl;
return 0;
}
结果:用了1.103s的时间进行查询。
分析:使用bitset进行大数统计或者在数据库中进行人物标签的标记都是非常的有优势,使用bitset相对于int数组来说节省了32倍的存储空间。