布隆过滤器学习

最新推荐文章于 2022-06-30 16:17:52 发布

weixin_42290259

最新推荐文章于 2022-06-30 16:17:52 发布

阅读量280

点赞数

文章标签： BloomFilter布隆过滤器

本文链接：https://blog.csdn.net/weixin_42290259/article/details/94599434

版权

布隆过滤器

学习起因,因上课听老师讲有一个数据结构很好用,比学习其他数据结构更有价值,这个数据结构就是布隆过滤器.
具体我并有在项目中使用它,现在是当做一种了解,学习它的原理和应用场景.

什么是布隆过滤器

本质上布隆过滤器是一种数据结构，比较巧妙的概率型数据结构（probabilistic data structure），特点是高效地插入和查询，可以用来告诉你 “某样东西一定不存在或者可能存在”。
相比于传统的 List、Set、Map 等数据结构，它更高效、占用空间更少，但是缺点是其返回的结果是概率性的，而不是确切的。

布隆过滤器实现原理

讲述布隆过滤器的原理之前，我们先思考一下，通常你判断某个元素是否存在用的是什么？应该蛮多人回答 HashMap 吧，确实可以将值映射到 HashMap 的 Key，然后可以在 O(1) 的时间复杂度内返回结果，效率奇高。但是 HashMap 的实现也有缺点，例如存储容量占比高，考虑到负载因子的存在，通常空间是不能被用满的，而一旦你的值很多例如上亿的时候，那 HashMap 占据的内存大小就变得很可观了。
还比如说你的数据集存储在远程服务器上，本地服务接受输入，而数据集非常大不可能一次性读进内存构建 HashMap 的时候，也会存在问题。

布隆过滤器是一个 bit 向量或者说 bit 数组,比如你有10个Url，你完全可以创建一长度是100bit的数组，然后对url分别用5个不同的hash函数进行hash，得到5个hash后的值，这5个值尽可能的保证均匀分布在100个bit的范围内。然后把5个hash值对应的bit位都置为1，判断一个url是否已经存在时，一次看5个bit位是否为1就可以了，如果有任何一个不为1，那么说明这个url不存在。这里需要注意的是，如果对应的bit位值都为1，那么也不能肯定这个url一定存在，这个是BloomFilter的特点之一.
在这里插入图片描述

核心思想

BloomFilter的核心思想有两点：

多个hash，增大随机性，减少hash碰撞的概率
扩大数组范围，使hash值均匀分布，进一步减少hash碰撞的概率。

准确性

尽管BloomFilter已经尽可能的减小hash碰撞的概率了，但是，并不能彻底消除，因此正如上面提到的：
如果对应的bit位值都为1，那么也不能肯定这个url一定存在
也就是说，BloomFilter其实是存在一定的误判的，这个误判的概率显然和数组的大小以及hash函数的个数以及每个hash函数本身的好坏有关.

支持删除吗

目前我们知道布隆过滤器可以支持 add 和 isExist 操作，那么 delete 操作可以么，答案是不可以，例如你删除一个多个值公用的bit,name另一个值也会返回false,因为不能构成全部bit都为1的条件,则这样是不合理的.
如何解决这个问题，答案是计数删除。但是计数删除需要存储一个数值，而不是原先的 bit 位，会增大占用的内存大小。这样的话，增加一个值就是将对应索引槽上存储的值加一，删除则是减一，判断是否存在则是看值是否大于0。

如何选择哈希函数个数和布隆过滤器长度

很显然，过小的布隆过滤器很快所有的 bit 位均为 1，那么查询任何值都会返回“可能存在”，起不到过滤的目的了。布隆过滤器的长度会直接影响误报率，布隆过滤器越长其误报率越小。
另外，哈希函数的个数也需要权衡，个数越多则布隆过滤器 bit 位置位 1 的速度越快，且布隆过滤器的效率越低；但是如果太少的话，那我们的误报率会变高。
具体该如何选择,请自行百度深入了解.

布隆过滤器的应用

常见的适用常见有，利用布隆过滤器减少磁盘 IO 或者网络请求，因为一旦一个值必定不存在的话，我们可以不用进行后续昂贵的查询请求。
K-V系统快速判断某个key是否存在,典型的例子有Hbase，Hbase的每个Region中都包含一个BloomFilter，用于在查询时快速判断某个key在该region中是否存在，如果不存在，直接返回，节省掉后续的查询
黑名单,比如邮件黑名单过滤器，判断邮件地址是否在黑名单中

参考地址:https://blog.csdn.net/xinzhongtianxia/article/details/81294922,
https://www.jianshu.com/p/2104d11ee0a2

weixin_42290259

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
布隆过滤器学习

布隆过滤器学习起因,因上课听老师讲有一个数据结构很好用,比学习其他数据结构更有价值,这个数据结构就是布隆过滤器.具体我并有在项目中使用它,现在是当做一种了解,学习它的原理和应用场景.什么是布隆过滤器本质上布隆过滤器是一种数据结构，比较巧妙的概率型数据结构（probabilistic data structure），特点是高效地插入和查询，可以用来告诉你 “某样东西一定不存在或者可能存在”。...
复制链接

扫一扫