Hadoop之BloomFilter

BloomFilter概述:

目的是检索元素是否在某个集合中,基于hash,速度比较快,不需要存储所有的元素,只需要按照某种方式存储hash值即可,因此比较节约内存,因此可以常驻内存加快查找速度。同时利用多个hash来解决hash冲突问题

我们假定集合元素为一个列表,我们可以用一个bit列表来存储此元素是否存在,如下所示:


 存在为1不存在为0,不过由于hash很容易冲突,那么可以基于多hash函数进行冲突的避免,每次设置对于的hash值为1,如下所示:



 也就是说x1经过三次hash那么设置对应的下标为1,x2同理,当查找判断的时候我们只需要同样获取三次hash值进行定位,当都为1的时候证明存在,反之则不存在,如下所示:



也就是说y1为不存在,因为有0,而y2,原则上存在,为什么是原则上呢?因为多次对位集合进行设置为1,而不清楚为0,那么很容易形成一个覆盖,也就是说不存在的判断是准确的,而存在的判断是不准确的。

转发请注明出处:http://snv.iteye.com/

总之:

1. BloomFilter能很快的判断某元素是否存在

2.BloomFilter能准确判断不存在的,概率性判断存在的

3.常驻内存对大数据操作很快

Hadoop中的实现:

BloomFilter
CountingBloomFilter
DynamicBloomFilter
RetouchedBloomFilter

使用场景:

1.操作的文件很多,那么当一个请求过来之后首先在内存做判断,如果有那么操作,如果没有那么直接返回,如nosql系列等

2.大数据处理时,如爬虫采集时对url做判断,如果没有采集过那么采集等

3.对否要求高,对是要求低的操作 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值