位图与布隆过滤器

最新推荐文章于 2024-09-04 15:29:39 发布

寒蝉丶鸣泣

最新推荐文章于 2024-09-04 15:29:39 发布

阅读量938

点赞数 24

文章标签：哈希算法算法

本文链接：https://blog.csdn.net/m0_74380143/article/details/134698625

版权

本文介绍了位图和布隆过滤器在处理海量数据时的实现方法，包括位图的变形、布隆过滤器的原理和缺陷，以及如何用它们解决找唯一整数、文件交集等问题，特别提到在内存限制下的近似和精确算法选择。

摘要由CSDN通过智能技术生成

目录

一、位图

1.位图的实现

2.位图的变形

二、布隆过滤器

1.布隆过滤器的提出

2.布隆过滤器的缺陷

三、海量数据的处理

一、位图

位图，就是用每一位比特位来存放某种状态，适用于海量数据，数据无重复的场景。通常是用来判断某个数据存不存在的。无符号整型大约42亿个数字可以用42亿个比特位(大约500m）标识。

1.位图的实现

class bitset
{
public:
 bitset(size_t bitCount)
 : _bit((bitCount>>5)+1), _bitCount(bitCount)
 {}
 // 将which比特位置1
 void set(size_t which)
 {
 if(which > _bitCount)
     return;
 size_t index = (which >> 5);
 size_t pos = which % 32;
 _bit[index] |= (1 << pos);
 }
 // 将which比特位置0
 void reset(size_t which)
 {
 if(which > _bitCount)
     return;
 size_t index = (which >> 5);
 size_t pos = which % 32;
 _bit[index] &= ~(1<<pos);
 }

bool test(size_t which)
{
 if(which > _bitCount)
     return false;
 size_t index = (which >> 5);
 size_t pos = which % 32;
 return _bit[index] & (1<<pos);
 }
private:
 vector<int> _bit;
 size_t _bitCount;
};

2.位图的变形

上诉位图用了一个比特位标识，如果要求位图能够筛选出出现次数为一次、两次的数字呢？同理，我们可以用两个比特位标识一个数字，这样可保存的信息就变多了；或者复用以上位图，使用两个位图也可以达到同样效果。

二、布隆过滤器

整数类型可以用位图高效保存存在信息，字符串又如何做到？

1.布隆过滤器的提出

布隆过滤器是由布隆（Burton Howard Bloom）在1970年提出的一种紧凑型的、比较巧妙的概率型数据结构，特点是高效地插入和查询，可以用来告诉你 “某样东西一定不存在或者可能存在”，它是用多个哈希函数，将一个数据映射到位图结构中。此种方式不仅可以提升查询效率，也可以节省大量的内存空间。

布隆过滤器的思想是将一个元素用多个哈希函数映射到一个位图中，因此被映射到的位置的比特位一定为1。所以可以按照以下方式进行查找：分别计算每个哈希值对应的比特位置存储的是否为零，只要有一个为零，代表该元素一定不在哈希表中，否则可能在哈希表中。哈希函数的个数也需要权衡，个数越多则布隆过滤器 bit 位置位 1 的速度越快，且布隆过滤器的效率越低；但是如果太少的话，那我们的误报率会变高。