C++处理大数据的问题

使用bitset处理在海量数据中查询是否有某些数的存在

背景:是上亿无序的整数中查询某个数是否存在其中,

  1. 如果使用遍历的方法的话时间复杂度为n,如果我们要多次查询,那岂不是不行。
  2. 先进行排序,让后使用二分法查找,听上去还可以,但是对上亿的整数进行排序最优的时间复杂度为nlog(n),也不是很理想。
  3. 使用bitmap算法,每一个二进制位表示一个数,第100个bit表示整数100,依次类推。

我们可以借助c++中的bitset来实现。
设计:使用一个7亿大小的bitset来存放出现的数字,将从100到200000000之间的数全部置位1,表示这些数出现了。
然后统计从99999到90000000之间有多少数存在。

#include <iostream>
#include <vector>
#include <algorithm>
#include <numeric>
#include <stack>
#include <bitset>
#include <time.h>
using namespace std;


int main() {
    auto *nums = new bitset<700000000>;
    for(long long i=100;i<200000000;i++){
        nums->set(i,1);
    }
    clock_t start,end;
    start = clock();
    long long sum = 0;
    for(long long i=99999;i<90000000;i++){
        if(nums->test(i)){
            sum++;
        }
    }
    end = clock();
    cout<<sum<<endl;
    cout<<"used time:"<<double(end-start)/CLOCKS_PER_SEC<<"s"<<endl;
    return 0;
}

结果:用了1.103s的时间进行查询。
在这里插入图片描述
分析:使用bitset进行大数统计或者在数据库中进行人物标签的标记都是非常的有优势,使用bitset相对于int数组来说节省了32倍的存储空间。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值