Hbase 布隆过滤器BloomFilter介绍

http://blog.csdn.net/opensure/article/details/46453681

 

1、主要功能
提高随机读的性能

2、存储开销
bloom filter的数据存在StoreFile的meta中,一旦写入无法更新,因为StoreFile是不可变的。 Bloomfilter是一个列族(cf)级别的配置属性,如果你在表中设置了Bloomfilter,那么HBase会在生成StoreFile时包含一份bloomfilter结构的数据,称其为MetaBlock;MetaBlock与DataBlock(真实的KeyValue数据)一起由LRUBlockCache维护。所以,开启bloomfilter会有一定的存储及内存cache开销。 

3、 控制粒度
a)ROW
根据KeyValue中的row来过滤storefile 
举例:假设有2个storefile文件sf1和sf2, 
sf1包含kv1(r1 cf:q1 v)、kv2(r2 cf:q1 v) 
sf2包含kv3(r3 cf:q1 v)、kv4(r4 cf:q1 v) 
如果设置了CF属性中的bloomfilter为ROW,那么get(r1)时就会过滤sf2,get(r3)就会过滤sf1 
b)ROWCOL
根据KeyValue中的row+qualifier来过滤storefile
举例:假设有2个storefile文件sf1和sf2, 
sf1包含kv1(r1 cf:q1 v)、kv2(r2 cf:q1 v) 
sf2包含kv3(r1 cf:q2 v)、kv4(r2 cf:q2 v) 
如果设置了CF属性中的bloomfilter为ROW,无论get(r1,q1)还是get(r1,q2),都会读取sf1+sf2;而如果设置了CF属性中的bloomfilter为ROWCOL,那么get(r1,q1)就会过滤sf2,get(r1,q2)就会过滤sf1

4、常用场景
1、根据key随机读时,在StoreFile级别进行过滤
2、读数据时,会查询到大量不存在的key,也可用于高效判断key是否存在

5、举例说明
假设x、y、z三个key存在于table中,W不存在
使用Bloom Filter可以帮助我们减少为了判断key是否存在而去做Scan操作的次数
step1)分别对x、y、z运算hash函数取得bit mask,写到Bloom Filter结构中
step2)对W运算hash函数,从Bloom Filter查找bit mask
   如果不存在:三个Bit位至少有一个为0,W肯定不存在该(Bloom Filter不会漏判)
   如果存在   :三个Bit位全部全部等于1,路由到负责W的Region执行scan,确认是否真的存在(Bloom Filter有极小的概率误判)




6、源码解析
1.get操作会enable bloomfilter帮助剔除掉不会用到的Storefile
在scan初始化时(get会包装为scan)对于每个storefile会做shouldSeek的检查,如果返回false,则表明该storefile里没有要找的内容,直接跳过
[java]   view plain  copy
  1. if (memOnly == false    
  2.             && ((StoreFileScanner) kvs).shouldSeek(scan, columns)) {    
  3.           scanners.add(kvs);    
  4. }  

shouldSeek方法:如果是scan直接返回true表明不能跳过,然后根据bloomfilter类型检查。
[java]   view plain  copy
  1. if (!scan.isGetScan()) {    
  2.         return true;    
  3. }    
  4. byte[] row = scan.getStartRow();    
  5. switch (this.bloomFilterType) {    
  6.   case ROW:    
  7.     return passesBloomFilter(row, 0, row.length, null00);    
  8.    
  9.   case ROWCOL:    
  10.     if (columns != null && columns.size() == 1) {    
  11.       byte[] column = columns.first();    
  12.       return passesBloomFilter(row, 0, row.length, column, 0, column.length);    
  13.     }    
  14.     // For multi-column queries the Bloom filter is checked from the    
  15.     // seekExact operation.    
  16.     return true;    
  17.    
  18.   default:    
  19.     return true;  
  20. }  


2.指明qualified的scan在配了rowcol的情况下会剔除不会用掉的StoreFile。
对指明了qualify的scan或者get进行检查:seekExactly
[java]   view plain  copy
  1. // Seek all scanners to the start of the Row (or if the exact matching row    
  2. // key does not exist, then to the start of the next matching Row).    
  3. if (matcher.isExactColumnQuery()) {    
  4.   for (KeyValueScanner scanner : scanners)    
  5.   scanner.seekExactly(matcher.getStartKey(), false);    
  6. else {    
  7.   for (KeyValueScanner scanner : scanners)    
  8.   scanner.seek(matcher.getStartKey());    
  9. }  

如果bloomfilter没命中,则创建一个很大的假的keyvalue,表明该storefile不需要实际的scan
[java]   view plain  copy
  1. public boolean seekExactly(KeyValue kv, boolean forward)    
  2.       throws IOException {    
  3.     if (reader.getBloomFilterType() != StoreFile.BloomType.ROWCOL ||    
  4.         kv.getRowLength() == 0 || kv.getQualifierLength() == 0) {    
  5.       return forward ? reseek(kv) : seek(kv);    
  6.     }    
  7.     
  8.     boolean isInBloom = reader.passesBloomFilter(kv.getBuffer(),    
  9.         kv.getRowOffset(), kv.getRowLength(), kv.getBuffer(),    
  10.         kv.getQualifierOffset(), kv.getQualifierLength());    
  11.     if (isInBloom) {    
  12.       // This row/column might be in this store file. Do a normal seek.    
  13.       return forward ? reseek(kv) : seek(kv);    
  14.     }    
  15.     
  16.     // Create a fake key/value, so that this scanner only bubbles up to the top    
  17.     // of the KeyValueHeap in StoreScanner after we scanned this row/column in    
  18.     // all other store files. The query matcher will then just skip this fake    
  19.     // key/value and the store scanner will progress to the next column.    
  20.     cur = kv.createLastOnRowCol();    
  21.     return true;    
  22. }  


这边为什么是rowcol才能剔除storefile纳,很简单,scan是一个范围,如果是row的bloomfilter不命中只能说明该rowkey不在此storefile中,但next rowkey可能在。而rowcol的bloomfilter就不一样了,如果rowcol的bloomfilter没有命中表明该qualifiy不在这个storefile中,因此这次scan就不需要scan此storefile了!


7、总结
1.任何类型的get(基于rowkey或row+col)Bloom Filter的优化都能生效,关键是get的类型要匹配Bloom Filter的类型

2.基于row的scan是没办法走Bloom Filter的。因为Bloom Filter是需要事先知道过滤项的。对于顺序scan是没有事先办法知道rowkey的。而get是指明了rowkey所以可以用Bloom Filter,scan指明column同理。

3.row+col+qualify的scan可以去掉不存在此qualify的storefile,也算是不错的优化了,而且指明qualify也能减少流量,因此scan尽量指明qualify。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值