用Python从零开始实现一个Bloomfilter

本文介绍了如何从零开始使用Python实现Bloomfilter,包括所需的功能接口、底层支撑如字节数组和哈希函数的选择,以及参数的确定和错误率计算。文章详细讲解了如何使用mmap作为存储,并选择了Murmur和Spooky哈希函数,同时还讨论了如何通过double hashing生成多个哈希函数。
摘要由CSDN通过智能技术生成

简介

如果你不知道什么是 Bloomfilter,可以在这里找到详尽的描述Bloomfilter 介绍。简单来说Bloomfilter是一个概率数据结构,功能上类似于集合的一个子集,可以向里面添加一个元素,或者判断一个元素是否在其中。不过你只能准确判断一个数据不在其中,对于那些Bloomfilter判定其中的元素,只能保证它有非常大的概率在其中(这个概率一般高达99.9%+)。

需要什么样的功能接口?

Bloomfilter需要存储输入数据的某种状态,每当向其中添加一个元素,它的状态就会发生变化,所以可以实现为一个类,用字节数组来保存状态。然后来考虑其初始化方法,一个Bloomfilter有三个参数,分别是输入数据规模n,字节数组大小m以及可以接受的错误率k(即错误率上限)
Bloomfilter 有两个主要的功能,添加一个元素的 add 和 测试一个元素是否在里面的 test,但是这个方法可以利用Python关键字 in更好的实现。

# bloomfilter.py

class Bloomfilter(object):

    def __init__(self, m, n, k):
        pass

    def add(self, element):
        pass

    def __contains__self, element):
        pass

用起来大概是这样

>>> from fastbloom import BloomFilter
>>> bf = BloomFilter() # 创建
>>> bf.add('http://www.github.com') # 添加元素
>>> 'http://www.github.com' in bf # 测试一个元素是否在其中
>>> True

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值