简介
如果你不知道什么是 Bloomfilter,可以在这里找到详尽的描述Bloomfilter 介绍。简单来说Bloomfilter是一个概率数据结构,功能上类似于集合的一个子集,可以向里面添加一个元素,或者判断一个元素是否在其中。不过你只能准确判断一个数据不在其中,对于那些Bloomfilter判定在其中的元素,只能保证它有非常大的概率在其中(这个概率一般高达99.9%+)。
需要什么样的功能接口?
Bloomfilter需要存储输入数据的某种状态,每当向其中添加一个元素,它的状态就会发生变化,所以可以实现为一个类,用字节数组来保存状态。然后来考虑其初始化方法,一个Bloomfilter有三个参数,分别是输入数据规模n
,字节数组大小m
以及可以接受的错误率k
(即错误率上限)
Bloomfilter 有两个主要的功能,添加一个元素的 add
和 测试一个元素是否在里面的 test
,但是这个方法可以利用Python关键字 in
更好的实现。
# bloomfilter.py
class Bloomfilter(object):
def __init__(self, m, n, k):
pass
def add(self, element):
pass
def __contains__(self, element):
pass
用起来大概是这样
>>> from fastbloom import BloomFilter
>>> bf = BloomFilter() # 创建
>>> bf.add('http://www.github.com') # 添加元素
>>> 'http://www.github.com' in bf # 测试一个元素是否在其中
>>> True