漫话：布隆算法概述

最新推荐文章于 2024-05-11 21:45:00 发布

曲奇不可以吃

最新推荐文章于 2024-05-11 21:45:00 发布

阅读量276

点赞数

Bloom Filter计算方法

如需要判断一个元素是不是在一个集合中，我们通常做法是把所有元素保存下来，然后通过比较知道它是不是在集合内，链表、树都是基于这种思路，当集合内元素个数的变大，我们需要的空间和时间都线性变大，检索速度也越来越慢。 Bloom filter 采用的是哈希函数的方法，将一个元素映射到一个 m 长度的阵列上的一个点，当这个点是 1 时，那么这个元素在集合内，反之则不在集合内。这个方法的缺点就是当检测的元素很多的时候可能有冲突，解决方法就是使用 k 个哈希函数对应 k 个点，如果所有点都是 1 的话，那么元素在集合内，如果有 0 的话，元素则不在集合内。

BloomFilter算法，是一种大数据排重算法。在一个数据量很大的集合里，能准确断定一个对象不在集合里；判断一个对象有可能在集合里，而且占用的空间不大。它不适合那种要求准确率很高的情况，零错误的场景。通过牺牲部分准确率达到高效利用空间的目的。

场景一：

假如有一个很大的表，通过字段key查询数据，操作很重；业务方请求时，传过来的key有很大一部分是不存在的；这种不存在的key请求就会浪费我们的查询资源。针对这种情况，我们可以引人BloomFilter算法，在请求key查询之前，使用BloomFilter匹配。如果不存在，就不用去查询了（正确率百分之百）；如果存在，走原来的查询流程（有可能不存在的key混进去了）。

场景二：

假如有一个很大的表，通过字段key判断是否存在，操作很重，如果存在就做一些操作，不存在就加入表中；可容许一定的误判。对应这种情况，我们也可以引入BloomFilter算法，通过key查询表判断存在否的方式可换成BloomFilter算法。如果存在，我们执行以前的逻辑（有一定的误判，业务也允许一定的错误）；如果不存在，也执行以前的逻辑。

BloomFilter是由一个长度为n的bit数组S和k个hash算法组成。先使bit数组的初始值为0.

添加值M：M经过k个hash算法计算后，得到：M1, M2 … Mk; 然后，使S[M1]=1,S[M2]=2... S[Mk]=1

判断值Y：Y经过k个hash算法计算后，得到：Y1,Y2... Yk。然后，判断S[Y1],S[Y2] … S[Yk] 是否都为1。如果有一个不为1，那这个Y就一定是不存在的，以前没添加过；如果都为1，那这个Y可能存在，也可能其他值添加后，影响了这次判断的结果。

我们要做的是尽量降低正确判断的误判率，资料显示，当 k = ln(2)* m/n 时（k是hash函数个数，m是bit数组的长度，n是加入值的个数），出错概率是最小的。

当然，如果我们要移除值，怎么办呢？当前的结构是没法实现的，我们可以通过在加一个等长的数据，存放每个bit位设置为1的次数，设置一次加1，取消一次减一。

Bloom Filter优点缺点

优点

插入时间和查询时间都是常数。
保存的不是数据本身，安全性好。

缺点

插入的元素越多，错判性越大。
不能删除元素。

image

两周之前——

image

爬虫的原理就不细说了，无非是通过种子URL来顺藤摸瓜，爬取出网站关联的所有的子网页，存入自己的网页库当中。

但是，这其中涉及到一个小小的问题......

image

URL去重方案第一版：HashSet

创建一个HashSet集合，把每一个URL字符串作为HashSet的key插入到集合当中，利用HashSet的Key唯一性来对URL做去重。

image

这个方案看似没毛病，但是经过几轮压测之后......

image

每一个URL按照20字节来算，一亿个URL就是20亿字节，也就是大约占了1.8G以上的空间。这么大的HashSet集合显然是不可取的。

于是小灰又思考了一番......

image

URL去重方案第二版：Bitmap

Bitmap是一种节省空间的数据结构，不太了解的朋友可以看看往期的相关文章：

漫画：什么是Bitmap算法?

具体怎么做呢？获取每一个URL的HashCode，根据HashCode的值来插入到Bitmap的对应位置。如果要插入位置的值已经是1，说明该URL已重复。

image

使用Bitmap以后，每一个Url只占了1个Bit，一亿个Url占约12MB。假设整个Bitmap的空隙比较多，额外空间占90%，总空间也不过是120MB，相比HashSet来说大大节省了内存空间。

这个方案貌似好了很多，可是......

String的Hashcode方法虽然尽可能做到均匀分布，但仍然免不了会有冲突的情况。HashCode的冲突意味着什么呢？意味着两个原本并不相同的Url被误判为重复Url。

———————————————

image

听起来有点绕，我们来详细描述一下：

1.把第一个URL按照三种Hash算法，分别生成三个不同的Hash值。

image

2.把第二个URL也按照三种Hash算法，分别生成三个不同的Hash值。

image

3.依次比较每一个Hash结果，只有当全部结果都相等时，才判定两个URL相同。

image

具体怎样映射呢？流程如下：

1.创建一个空的Bitmap集合。

image

2.把第一个URL按照三种Hash算法，分别生成三个不同的Hash值。

image

3.分别判断5，17， 9 在Bitmap的对应位置是否为1，只要不同时为1，就认为该Url没有重复，于是把5，17，9的对应位置设置为1。

image

4.把第二个URL按照三种Hash算法，分别生成三个不同的Hash值。

image

5.分别判断10，12， 9 在Bitmap的对应位置是否为1，只要不同时为1，就认为该Url没有重复，于是把10，12， 9 的对应位置设置为1。

image

6.把第三个URL按照三种Hash算法，分别生成三个不同的Hash值。

7.分别判断4，16， 11 在Bitmap的对应位置是否为1，只要不同时为1，就认为该Url没有重复，于是把4，16， 11 的对应位置设置为1。

8.把第四个URL按照三种Hash算法，分别生成三个不同的Hash值。

9.分别判断5，17， 9 在Bitmap的对应位置是否为1。判断的结果是 5，17， 9 在Bitmap对应位置的值都是1，所以判定该Url是一个重复的Url。

1.URL按照三个Hash算法得到三个结果。

image

2.分别判断10，12， 17 在Bitmap的对应位置是否为1。判断的结果是 10，12， 17 在Bitmap对应位置的值都是1，所以判定该Url是一个重复的Url。

image

曲奇不可以吃

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
漫话：布隆算法概述

Bloom Filter计算方法如需要判断一个元素是不是在一个集合中，我们通常做法是把所有元素保存下来，然后通过比较知道它是不是在集合内，链表、树都是基于这种思路，当集合内元素个数的变大，我们需要的空间和时间都线性变大，检索速度也越来越慢。 Bloom filter 采用的是哈希函数的方法，将一个元素映射到一个 m 长度的阵列上的一个点，当这个点是 1 时，那么这个元素在集合内，反之则不在集合...
复制链接

扫一扫