认识布隆过滤器

最新推荐文章于 2021-02-24 18:45:30 发布

GeeksforGeeks

最新推荐文章于 2021-02-24 18:45:30 发布

阅读量129

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/liyutaogege/article/details/103541898

版权

大数据专栏收录该内容

5 篇文章 0 订阅

订阅专栏

什么是布隆过滤器？

布隆过滤器可以精准地代表一个集合，并可以精准判断一个元素是否在集合中。

基本原理

判断一个元素是不是在一个集合里，一般是将所有元素保存起来，然后通过比较确定。但随着集合中元素的增加，我们需要的存储空间越来越大，检索速度也越来越慢(O(n),O(logn))。不过还有一种叫作散列表（又叫哈希表，Hash table）的数据结构。它可以通过一个Hash函数将一个元素映射成一个位阵列（Bit array）中的一个点。这样，我们只要看看这个点是不是1就可以知道集合中有没有它了。这就是布隆过滤器的基本思想。

实现原理

比如你有10个Url，你完全可以创建一长度是100bit的数组，然后对url分别用5个不同的hash函数进行hash，得到5个hash后的值，这5个值尽可能的保证均匀分布在100个bit的范围内。然后把5个hash值对应的bit位都置为1，判断一个url是否已经存在时，一次看5个bit位是否为1就可以了，如果有任何一个不为1，那么说明这个url不存在。这里需要注意的是，如果对应的bit位值都为1，那么也不能肯定这个url一定存在，这个是BloomFilter的特点之一。
在这里插入图片描述

核心思想

多个hash，增大随机性，减少hash碰撞的概率；
扩大数组范围，使hash值均匀分布，进一步减少hash碰撞的概率。

准确性

尽管BloomFilter已经尽可能的减小hash碰撞的概率了，但是，并不能彻底消除，因此正如上面提到的：
如果对应的bit位值都为1，那么也不能肯定这个url一定存在
也就是说，BloomFilter其实是存在一定的误判的，这个误判的概率显然和数组的大小以及hash函数的个数以及每个hash函数本身的好坏有关。

应用

黑名单系统、垃圾邮件过滤
比如邮件黑名单过滤器，判断邮件地址是否在黑名单中
排序(仅限于BitSet)
仔细想想，其实BitSet在set(int value)的时候，“顺便”把value也给排序了。
爬虫的网址判重
判断某个URL是否已经被爬取过
K-V系统快速判断某个key是否存在
典型的例子有Hbase，Hbase的每个Region中都包含一个BloomFilter，用于在查询时快速判断某个key在该region中是否存在，如果不存在，直接返回，节省掉后续的查询。

GeeksforGeeks

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
认识布隆过滤器

什么是布隆过滤器？一个布隆过滤器精准地代表一个集合，并可以精准判断一个元素是否在集合中。基本原理判断一个元素是不是在一个集合里，一般是将所有元素保存起来，然后通过比较确定。但随着集合中元素的增加，我们需要的存储空间越来越大，检索速度也越来越慢(O(n),O(logn))。不过还有一种叫作散列表（又叫哈希表，Hash table）的数据结构。它可以通过一个Hash函数将一个元素映射成一个位阵列...
复制链接

扫一扫