一文读懂海量数据去重带你认识布隆过滤器

最新推荐文章于 2024-08-13 08:49:24 发布

杀神李

最新推荐文章于 2024-08-13 08:49:24 发布

阅读量356

点赞数 1

分类专栏：数据结构与算法文章标签：散列表数据结构哈希算法 c++

本文链接：https://blog.csdn.net/qq_16401691/article/details/125083698

版权

数据结构与算法专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文介绍了在处理大量数据查询时，传统数据结构如哈希表的效率问题。针对这种情况，引入了布隆过滤器，这是一种概率型数据结构，用于快速判断元素是否存在，占用空间小但存在误判可能。布隆过滤器由位图和多个哈希函数组成，其误判率可通过数学公式计算，并提供了在线计算器工具。此外，还给出了布隆过滤器的Python实现链接，便于实际应用。

摘要由CSDN通过智能技术生成

无论任何数据结构双链表红黑树 b+树 b树或者是哈希表他们都有一个问题就是搜索效率并不高在面对海量数据比如几十万用户发几十万个查询数据请求我却要一个个去搜索数据是否存在时非常的耗时有些读者就要说了哈希表搜索效率不是非常高嘛？

一个像 Yahoo,Hotmail 和 Gmai 那样的公众电子邮件（email）提供商，总是需要过滤来自发送垃圾邮件的人的垃圾邮件。一个办法就是记录下那些发垃圾邮件的 email 地址。由于那些发送者不停地在注册新的地址，全世界少说也有几十亿个发垃圾邮件的地址，将他们都存起来则需要大量的网络服务器。如果用哈希表，每存储一亿个 email 地址，就需要 1.6GB 的内存。然后将这些信息存入哈希表，由于哈希表的存储效率一般只有 50%，因此一个 email 地址需要占用十六个字节。一亿个地址大约要 1.6GB，即十六亿字节的内存。因此存贮几十亿个邮件地址可能需要上百 GB 的内存。除非是超级计算机，一般服务器是无法存储的。

哈希表某一个桶内元素过多不可避免的就会降低整个哈希表的效率无论你是采用拉链法还是开放寻址法或者是其他一些规避哈希冲突的算法都会使得搜索效率下降

我们想要一种数据结构他的功能仅仅是快速判断一个数据是否存在我的数据库中并且占用的空间不能太多有没有这种数据结构呢？有的那便是布隆过滤器

布隆过滤器的思想

如果想判断一个元素是不是在一个集合里，一般想到的是将所有元素保存起来，然后通过比较确定。链表，树等等数据结构都是这种思路。但是随着集合中元素的增加，我们需要的存储空间越来越大，检索速度也越来越慢。可以通过一（多）个Hash函数将一（多）个元素映射成一（多）个位阵列（或者是位图）中的一（多）个点。这样一来，我们计算完哈希值，只要看看对应的点是不是 1 就知道可以集合中有没有它了。这就是布隆过滤器的基本思想。

布隆过滤器的特点

布隆过滤器是一种概率型数据结构，它的特点是高效地插入和查询，能确定某个字符串一定不存在或者可能存在。（注意：能判断一定不存在，但是不能判断一定存在，也就是只能知道100%不在里面，且有一定概率在里面）

布隆过滤器不存储具体数据，所以占用空间小，查询结果存在误差，但是误差可控，同时不支持删除操作（实现删除的思路：设置两个位图，将删除后的添加到删除位图，查询的时候两个位图都查询，如果第一个位图存在，再查删除位图，当删除位图不存在的时候该元素存在，否在表示已经被删除了）

布隆过滤器由一个位图和n个哈希函数构成