【C++哈希应用】位图、布隆过滤器

爱写代码的刚子

已于 2023-09-30 17:01:12 修改

阅读量194

点赞数 4

分类专栏： C++进阶文章标签： c++ 哈希算法开发语言位图布隆过滤器

于 2023-09-30 16:53:38 首次发布

本文链接：https://blog.csdn.net/m0_74215144/article/details/133436616

版权

C++进阶专栏收录该内容

10 篇文章 1 订阅

订阅专栏

【C++哈希应用】位图、布隆过滤器

位图概念

所谓位图，就是用每一位来存放某种状态，适用于海量数据，数据无重复的场景。通常是用来判断某个数据存不存在的。

数据是否在给定的整形数据中，结果是在或者不在，刚好是两种状态，那么可以使用一个二进制比特位来代表数据是否存在的信息，如果二进制比特位为1，代表存在，为0代表不存在。比如:

在这里插入图片描述

位图的实现

template<size_t N>
    class bitset
    {
    public:
        bitset()
        {
            _a.resize(N/32+1);//不要忘了+1,默认初始化成0
        }

        void set( size_t x)
        {
            int i=x/32;
            int j=x%32;

            _a[i] |=(1<<j);
        }

        void reset(size_t x)
        {
            int i=x/32;
            int j=x%32;

            _a[i] &= (~(1<<j));
        }

        bool test(size_t x)
        {
            int i=x/32;
            int j=x%32;

            return _a[i] &(1<<j);
        }

    private:
        vector<int> _a; 
    };

位图改造

用两个位图来测试数据个数

template<size_t N>
    class twobitset
    {
    public:
        void set(size_t x)
        {
            //00->01
            if(!_b1.test(x)&&!_b2.test(x))
            {
                _b2.set(x);
            }//01->10
            else if(!_b1.test(x)&&_b2.test(x))
            {
                _b1.set(x);
                _b2.reset(x);
            }
        }
        
         bool is_once(size_t x)
         {
             return !_b1.test(x)&&_b2.test(x);
         }
         bool is_or_above_twice(size_t x)
         {
             return _b1.test(x)&&!_b2.test(x);
         }

    private:
        bitset<N> _b1;
        bitset<N> _b2;
    };

位图应用总结

快速查找某个数据是否在一个集合中
排序
求两个集合的交集、并集等
操作系统中磁盘块标记

布隆过滤器

布隆过滤器的提出

我们在使用新闻客户端看新闻时，它会给我们不停地推荐新的内容，它每次推荐时要去重，去掉那些已经看过的内容。问题来了，新闻客户端推荐系统如何实现推送去重的? 用服务器记录了用户看过的所有历史记录，当推荐系统推荐新闻时会从每个用户的历史记录里进行筛选，过滤掉那些已经存在的记录。如何快速查找呢?

用哈希表存储用户记录，缺点:浪费空间
用位图存储用户记录，缺点:不能处理哈希冲突 3. 将哈希与位图结合，即布隆过滤器

布隆过滤器的概念

布隆过滤器是由布隆(Burton Howard Bloom)在1970年提出的一种紧凑型的、比较巧妙的概率型数据结构，特点是高效地插入和查询，可以用来告诉你 “某样东西一定不存在或者可能存在”，它是用多个哈希函数，将一个数据映射到位图结构中。此种方式不仅可以提升查询效率，也可以节省大量的内存空间

在这里插入图片描述

// 假设布隆过滤器中元素类型为K，每个元素对应5个哈希函数
template<class K, class KToInt1 = KeyToInt1, class KToInt2 = KeyToInt2,
                  class KToInt3 = KeyToInt3, class KToInt4 = KeyToInt4,
                 class KToInt5 = KeyToInt5>
class BloomFilter
{
public:
		BloomFilter(size_t size) // 布隆过滤器中元素个数 : _bmp(5*size), _size(0)
    {}
    bool Insert(const K& key)
    {
        size_t bitCount = _bmp.Size();
        size_t index1 = KToInt1()(key)%bitCount;
        size_t index2 = KToInt2()(key)%bitCount;
        size_t index3 = KToInt3()(key)%bitCount;
        size_t index4 = KToInt4()(key)%bitCount;
        size_t index5 = KToInt5()(key)%bitCount;
        _bmp.Set(index1); _bmp.Set(index2);_bmp.Set(index3);
        _bmp.Set(index4);_bmp.Set(index5);
        _size++;
     } 
private:
    bitset _bmp;
    size_t _size;// 实际元素的个数
}

布隆过滤器的查找

布隆过滤器的思想是将一个元素用多个哈希函数映射到一个位图中，因此被映射到的位置的比特位一定为1。所以可以按照以下方式进行查找:分别计算每个哈希值对应的比特位置存储的是否为零，只要有一个为零，代表该元素一定不在哈希表中，否则可能在哈希表中。

bool IsInBloomFilter(const K& key)
{
    size_t bitCount = _bmp.Size();
    size_t index1 = KToInt1()(key)%bitCount;
    if(!_bmp.Test(index1))
        return false;
    size_t index2 = KToInt2()(key)%bitCount;
    if(!_bmp.Test(index2))
        return false;
    size_t index3 = KToInt3()(key)%bitCount;
    if(!_bmp.Test(index3))
        return false;
    size_t index4 = KToInt4()(key)%bitCount;
    if(!_bmp.Test(index4))
        return false;
    size_t index5 = KToInt5()(key)%bitCount;
    if(!_bmp.Test(index5))
return false; return true; // 有可能在
}