BloomFilter算法

BloomFilter算法是在1970年提出的算法,具有很好的空间和时间效率,内部是依赖一些列hash算法和数组的。被用来检测一个元素是不是集合中的一个成员,允许有一定的出错率:如果某个数据被判断不在集合中,那么该数据就一定不会在这个集合中;由于hash会有碰撞存,那么如果判断某数据在集合内,这会种判断可能出错。一句话,就是判断为"false"的就一定不会有错,而判断为"true",则有可能出错。可见 Bloom filter 是牺牲了正确率换取时间和空间,[b]居于这种特性,我们可以把BloomFilter当成大数据快速排除算法。[/b]
它是hash快速查表的改良快速算法。
[b]BloomFilter的特点:数据的插入和查询时间都是常数,另外它查询元素却不保存元素本身,具有良好的安全性。[/b]
[b]BloomFilter的缺点:当插入的元素越多,错判“在集合内”的概率就越大了,另外 Bloom filter 也不能删除一个元素,因为多个元素哈希的结果可能在 BloomFilter 结构中占用的是同一个位,如果删除了一个比特位,可能会影响多个元素的检测。[/b]
Bloom filter 采用的是哈希函数的方法,将一个元素映射到一个 m 长度的阵列上的一个点,当这个点是 1 时,那么这个元素在集合内,反之则不在集合内。这个方法的缺点就是当检测的元素很多的时候可能有冲突,解决方法就是使用 k 个哈希 函数对应 k 个点,如果所有点都是 1 的话,那么元素在集合内,如果有 0 的话,元素则不在集合内。
在实际的应用中为了,可以使用“白名单”的方式和该算法来减少出错。
[b]BloomFilter算法思想[/b]是这样的:创建一个数组或BitMap,将之全部初始化为0,然后选择创建几个不同的hash函数,放入数据的时候,将加入地数据通过这几个hash函数得出数据在数组或BitMap中的下表,并以此将按其下标将对应的数组或BitMap中的数据改为1;判断数据是否包含在集合中的时候,还是通过这几个hash函数获得相应的几个hash值——即数组或BitMap的下表,然后循环判断下表对应的数据结构中的数据,如果其中有一个不为1,就可以判断数据不包含在聚合中,否则标识包含在聚合中。由上述过程我们可以看到,当判断为判断某数包含在集合时,可能有误判。
BloomFilter跟单哈希函数Bit-Map不同之处在于:Bloom Filter使用了N个哈希函数,每个字符串跟N个bit对应,从而降低了冲突的概率。
下面让我们看一下数据是如何加入到BloomFilter的结构中的:
[img]http://dl.iteye.com/upload/attachment/0084/0083/2612a57a-4e30-330c-9a7b-78333d87a66d.jpg[/img]

[b]Bloom Filter参数选择[/b]
1)、哈希函数选择
哈希函数的选择对性能的影响应该是很大的,一个好的哈希函数要能近似等概率的将字符串映射到各个Bit。选择k个不同的哈希函数比较麻烦,一种简单的方法是选择一个哈希函数,然后送入k个不同的参数。
2)、Bit数组大小选择
哈希函数个数k、位数组大小m、加入的字符串数量n的关系,当 k = ln(2)* m/n 时出错的概率是最小的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值