位图的实现以及应用

所谓位图就是用一个bit位来标记某个元素对应的value,而key即是这个元素。由于采用bit为单位来存储数据,因此在可以大大的节省存储空间。
32位机器上,一个整形,比如int a;在内存中占32bit,可以用对应的32个bit位来表示十进制的0-31个数,bitmap算法利用这种思想处理大量数据的排序与查询
优点:效率高,不许进行比较和移位,占用内存少,比如N=10000000;只需占用内存为N/8 = 1250000Bytes = 1.2M,如果采用int数组存储,则需要38M多
缺点:无法对存在重复的数据进行排序和查找
示例:申请一个int型的内存空间,则有4Byte,32bit。
输入 4:
这里写图片描述

class BitMap
{
public :
BitMap()
{}
BitMap(size_t size)
{
_table.resize((size>>5)+1);//(size/32)+1
}

void Set(size_t data)
{
//将数据所在的比特位置1
size_t byte = data >>5;
size_t bit = data % 32;
_table[byte] |= 1 << bit;
}
void ReSet(size_t data)
{
//将数据所在比特位置0
size_t byte = data >> 5;
size_t bit = data % 5;
_table[byte] &= ~(1 << bit);
}

bool Test(size_t data)
{
//验证所查数据是否存在
size_t byte = data >> 5;
size_t bit = data % 32;
//将其余位置置0,除bit位
if ((1 << bit)&_table[byte])
return true;
return false;
}
private:
vector<int> _table;

};

应用:
1)给定100亿个整数,设计算法找到只出现一次的整数
将100亿个数分拆成1000份文件,再将每份文件里使用位图,并用两位bit表示数字出现的次数,00存出现0次的数,01存放出现1次的数,10存放出现多次的数,11舍弃,再将1000份中出现一次的数全部合并到一个文件里存放即可。

2)给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集
1、使用hash函数将第一个文件的所有整数映射到1000个文件中,每个文件有1000万个整数,大约40M内存, 内存可以放下,把1000个文件记为 a1,a2,a3…..a1000,用同样的hash函数映射第二个文件到1000个文件中,这1000个文件记为b1,b2,b3……b1000,由于使用的是相同的hash函数,所以两个文件中一样的数字会被分配到文件下标一致的文件中,分别对a1和b1求交集,a2和b2求交集,ai和bi求交集,最后将结果汇总,即为两个文件的交集
2、桶分+组内bitmap。如果这里的整数是32bit的话,直接使用bitmap的方法就能实现了。所有整数共2^32种可能,每个数用2bit来表示,“00”表示两个文件均没出现,“10”表示文件1出现过,“01”表示文件2出现过,“11”表示两个文件均出现过,共需(2^32)*2/8=1GB内存,遍历两个文件中的所有整数,然后寻找bitmap中“11”对应的整数即是两个文件的交集

3)1个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数
1、将100亿个整数分成100份,这样就只需要400M的内存,将每个数加载到哈希表中,就可以知道那个数据只出现了两次或者一次。
2、100亿个整数其实也都在是42亿9千万数字之中,利用位图的扩展,用2个位表示数字出现的次数,00表示没有出现过,01表示出现过一次,10表示出现过多次,这样内存需要1G。

4)给两个文件,分别有100亿个URL,我们只有1G内存,如何找到两个文件交集?分别给出精确算法和近似算法。
精确算法:Hash分桶法
• 将两个文件中的query hash到N个小文件中,并标明query的来源
• 在各个小文件中找到重合的query
• 将找到的重合query汇总
近似算法:BloomFilter

5)给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址?
 将100G文件分成1000份,将每个IP地址哈希映射到相应文件中,在每个文件中分别求出最高频的IP,然后合并在进行比较,找出次数最多的IP地址。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值