Bloom Filter

metabit

已于 2024-01-11 20:43:30 修改

阅读量238

点赞数

分类专栏：数据结构与算法文章标签： BloomFilter 位运算

于 2021-12-01 12:48:10 首次发布

本文链接：https://blog.csdn.net/dawnto/article/details/121652860

版权

数据结构与算法专栏收录该内容

185 篇文章 5 订阅

订阅专栏

布隆过滤器
一言以蔽之：布隆过滤器类似于一个没有删除功能的有一定失误率的黑名单系统。利用hash函数的性质，用k个hash函数为每一条数据提取出k个特征，k[i]%m(位图的大小) 得出k个位置，在长度为m的位图上，对k个位置进行描黑。查询时同样对样本进行提取特征，用按位与的方式获取位图上相应的位是否都为1。都为1则证明该条数据在布隆过滤器上存在。在设计布隆过滤器的时候，我们只需要知道样本量N，和预期失误率P，可以通过公式计算出位图大小m，hash函数个数k。

使用布隆过滤器，需要容忍一定程度的失误率。
k个hash函数多少? m长度位图多大? 预期失误率是什么? 样本量大小？
只有允许存在一定程度上的失误，才可以使用布隆过滤器
失误的情况：可能不是黑名单中的内容，却被误报成黑名单中的内容

使用布隆过滤器需要知道样本量
布隆过滤器无法扩容
使用布隆过滤器不需要知道单个样本大小
hash函数能够接收单个样本，计算出一个hash就可以

给定：样本量N， 预期失误率 P

m非常小的时候，失误率会很大
m增大失误率下降，无限趋近于0，但不会是0
k过大会很快的耗尽m

P   /\
    |    \
	|     \
	|      \
p	|------.\
	|      |  ` . _
-----------|---------------------------------- >   m
    |      m
    |

布隆过滤器重要的三个公式
1.假设数据量为n，预期的失误率为p （布隆过滤器大小和每个样本的大小无关）
2.根据n和p，算出Bloom Filter 一共需要多少个bit位，向上取整，记为m
3.根据m和n，算出Bloom Filter 需要多少个哈希函数，向上取整，记为k
4.根据修正公式，算出真实的失误率 p_true (比预期的会低)

m       =  -(n * ln p) / (ln2)^2
k       =  ln2 * (m/n) = 0.7 * m / n
p_true  =  (1 - e^(-(nk)/m)) ^ k

布隆过滤器重要的三个公式

怎么得到k个hash函数，而且他们彼此独立？
只需要找到任意两个hash函数：f( )，g( )
f( ) + 1 * g( ) -> 第1个
f( ) + 2 * g( ) -> 第2个
f( ) + 3 * g( ) -> 第3个
…
f( ) + k * g( ) -> 第k个

布隆过滤器的存在是为了节省空间

假设100亿数据量，预期失误率万分之一
给定30G空间，可以把100亿样本预期失误率降低到 6 / 100_000

应用
hdfs

删除功能怎么做？
用2个比特位代表一个点
2个比特位可以代表4种状态，即00,01,10,11 可以代表 0,1,2,3 所以描黑一次，比特位进行加1，若删除一次，则比特位减1。但是该设计有很大的局限，而且使用空间会更大。经典布隆过滤器没有删除行为。

metabit

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Bloom Filter

布隆过滤器1.利用哈希函数的性质2.给每一条数据提取特征3.加入描黑库k个hash函数? m位图多大? 预期失误率?只有允许存在一定程度上的失误，才可以使用布隆过滤器失误的情况：可能不是黑名单中的内容，却被误报成黑名单中的内容使用布隆过滤器需要知道样本量布隆过滤器无法扩容使用布隆过滤器不需要知道单个样本大小hash函数能够接收单个样本，计算出一个hash就可以样本量N 预期失误率 PP /\ | \ | \ | \p |----
复制链接

扫一扫