布隆过滤器（Bloom Filter）简介

最新推荐文章于 2024-05-16 21:51:34 发布

Dev-L

最新推荐文章于 2024-05-16 21:51:34 发布

阅读量294

点赞数

分类专栏：算法与数据结构

本文链接：https://blog.csdn.net/u010525694/article/details/78549737

版权

布隆过滤器是一种节省空间的数学工具，用于判断一个元素是否可能在大型集合中，常用于避免存储大量数据。它通过二进制向量和随机映射函数来工作，能快速检测但可能存在一定的误识别率。在处理如电子邮件黑名单过滤等场景中，布隆过滤器能有效地减少存储需求，但需结合白名单以降低误判。

摘要由CSDN通过智能技术生成

在日常生活中，包括在设计计算机软件时，我们经常要判断一个元素是否在一个集合中。比如在字处理软件中，需要检查一个英语单词是否拼写正确（也就是要判断它是否在已知的字典中）；在 FBI，一个嫌疑人的名字是否已经在嫌疑名单上；在网络爬虫里，一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中，遇到一个新元素时，将它和集合中的元素直接比较即可。一般来讲，计算机中的集合是用哈希表（hash table）来存储的。它的好处是快速准确，缺点是费存储空间。当集合比较小时，这个问题不显著，但是当集合巨大时，哈希表存储效率低的问题就显现出来了。比如说，一个象 Yahoo,Hotmail 和 Gmai 那样的公众电子邮件（email）提供商，总是需要过滤来自发送垃圾邮件的人（spamer）的垃圾邮件。一个办法就是记录下那些发垃圾邮件的 email 地址。由于那些发送者不停地在注册新的地址，全世界少说也有几十亿个发垃圾邮件的地址，将他们都存起来则需要大量的网络服务器。如果用哈希表，每存储一亿个 email 地址，就需要 1.6GB 的内存（用哈希表实现的具体办法是将每一个 email 地址对应成一个八字节的信息指纹 googlechinablog.com/2006/08/bl

最低0.47元/天解锁文章

Dev-L

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
布隆过滤器（Bloom Filter）简介

在日常生活中，包括在设计计算机软件时，我们经常要判断一个元素是否在一个集合中。比如在字处理软件中，需要检查一个英语单词是否拼写正确（也就是要判断它是否在已知的字典中）；在 FBI，一个嫌疑人的名字是否已经在嫌疑名单上；在网络爬虫里，一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中，遇到一个新元素时，将它和集合中的元素直接比较即可。一般来讲，计算机中的集合是用哈希表（hash
复制链接

扫一扫

专栏目录