BloomFilter(布隆过滤器)原理和python支持库

最新推荐文章于 2024-08-09 07:06:28 发布

TENLIU2099

最新推荐文章于 2024-08-09 07:06:28 发布

阅读量6.6k

点赞数

本文链接：https://blog.csdn.net/tenliu2099/article/details/78298778

版权

Bloom Filter是一种用于快速查找的算法，适用于需要判断元素是否可能存在于集合但允许一定误判率的场景。在Python中，可以通过pybloom库实现。文章介绍了Bloom Filter的原理、应用场景、影响误判率的因素，并提供了简单的使用示例。

摘要由CSDN通过智能技术生成

更多内容请访问我的个人博客www.tenliu.top

简介

Bloom Filter（布隆过滤器）是一种多哈希函数映射的快速查找算法。通常应用在需要快速判断一个元素是否属于集合，但是并不是严格要求100%正确的场合。
即Bloom Filter是会误判的，但是它只会把不存在于集合中的元素误判成存在于集合中，而不会把存在于集合中的元素误判成不存在集合中。

场景

我最初使用Bloom Filter的场景是爬虫的链接去重。如果我们采用最笨的方法，保存所有抓取过的url，那么当数据越来越大，去重判断的速度当然会降低，内存消耗也会越来越大，即使加入摘要算法、采用hash存储，也仅仅是减缓这个趋势而已。
我需要寻找一种，即使在url很多的时候，依然速度快，内存消耗小的方法。由此采用Bloom Filter，并且Bloom Filter的错判的代价，对我这个应用场景而言，仅仅是少抓取几个页面而已，完全可以接受。

原理

Bloom Filter仅仅维护一个m位的BitArray（位数组），最开始m位全部为零。不断记录元素（如已经抓取的url），也仅仅是m位的BitSet中有些位置由0置成1的过程。
此外，Bloom Filter需要K个不同的hash函数，并且每个hash函数的结果要是在0~m-1范围的，因为我们要把每一个hash函数的结果i映射到位数租的第i位上去。