Hbase 高级特性Bloom filter

本文介绍了Bloom filter在Hbase中的作用,它能有效地减少磁盘IO次数。适用于用户定期更新部分行的场景,并探讨了数据单元格大小对使用Bloom filter的影响。文章还提到了行级与行加列级Bloom Filter的选择取决于操作模式,尤其是对于整行操作的情况。同时,文中提供了一个简单的Java实现示例。
摘要由CSDN通过智能技术生成

Bloom filter 简单而言就是对hash 表的创新,用在 Hbase 中可以有有效减少磁盘IO次数。
这里写图片描述
图片来源:hbase 权威指南
这里写图片描述

**使用场景总结:

  1. 当用户定期更新所有行时不适合使用Bloom filter,当用户定期更新部分行时,适合使用Bloom filter
  2. 当数据单元格较小时不合适使用Bloom filter (因为此时将会有太多的Bloom filter)
  3. 使用行级Bloom filter 还是 行加列级Bloom Filter 取决于使用模式,当操作是整行操作时,采用Bloom Filter 操作较合适

**

下面是一个java 的简单实现

package basic;
/*
* @author: wjf
* @version: 2016年4月15日 下午10:05:28
*/

import java.util.BitSet;

public class BloomFilter {
    private static int DEFAULT_SIZE=1<<24;
    private int[] seeds={3,5,7,11,13,17,31,41};
    private static BitSet bits=new BitSet(DEFAULT_SIZE);
    private SimpleHash[] hashs=new SimpleHash[seeds.length];
    public boolean addValue(String value){
        if(value==null){
            return false;
        }else{
            for(int i=0;i<seeds.length;i++){
                hashs[i]=new SimpleHash(DEFAULT_SIZE,seeds[i]);
                bits.set(hashs[i].hash(value),true);
            }
            return true;
        }
    }
    public boolean contains(String value){
        if(value==null){
            return false;
        }else{
            boolean ret=true;
            for(SimpleHash h:hashs){
                ret=ret && bits.get(h.hash(value));
                if(ret == false){
                    return false;
                }
            }
            return true;
        }
    }

    public static void main(String[] args) {
        // TODO Auto-generated method stub
        BloomFilter bfilter=new BloomFilter();
        bfilter.addValue("just for test");
        System.out.println(bfilter.contains("just for test"));
    }

}
class SimpleHash{
    private int cap;
    private int seed;
    public SimpleHash(int cap,int seed){
        this.cap=cap;
        this.seed=seed;
    }
    public int hash(String value){
        int result=0;
        for(int i=0;i<value.length();i++){
            result=result*seed+value.charAt(i);
        }
        return (cap-1)&result;
    }
}
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Bloom filter是一种数据结构,它具有可压缩性和高效查询性,因此在分布式数据库、网络缓存、对等网和信息检索等领域引起了越来越多的研究者关注。Bloom filter可以判断一个元素是否存在于一个集合,而且在判断结果不会出现漏判的情况,即如果Bloom filter判断一个元素不存在,则该元素一定不存在;但是如果Bloom filter判断一个元素存在,则该元素可能不存在(即存在一定的误判率)。 Bloom filter的应用场景非常广泛。例如,可以使用Bloom filter来解决Redis缓存穿透问题、邮件黑名单过滤、爬虫网址过滤、新闻推荐过滤等。在数据库方面,一些数据库如HBase、RocksDB和LevelDB等内置了Bloom filter,用于判断数据是否存在,从而减少数据库的IO请求。 Bloom filter的原理是基于位数组和多个哈希函数。它使用一个位数组来表示集合,初始时所有的位都被置为0。当要向Bloom filter插入一个元素时,会将该元素经过多个哈希函数得到多个哈希值,并将对应位置的位设置为1。当要查询一个元素是否存在于Bloom filter时,同样会经过多个哈希函数得到多个哈希值,并检查对应位置的位是否都为1。如果所有的位都为1,则认为该元素可能存在于集合;如果至少一个位为0,则该元素一定不存在于集合。 因此,Bloom filter是一种高效的数据结构,可以用于判断一个元素是否存在于一个集合。虽然Bloom filter存在一定的误判率,但可以通过调整参数来降低误判率,并且在很多应用场景下具有很高的效率和性能优势。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Bloom Filter研究进展](https://download.csdn.net/download/weixin_38522323/14847831)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [布隆(Bloom Filter)过滤器——全面讲解,建议收藏](https://blog.csdn.net/qq_41125219/article/details/119982158)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值