Hbase 高级特性Bloom filter

最新推荐文章于 2024-06-14 16:38:04 发布

WYSIWYG-所见即所得

最新推荐文章于 2024-06-14 16:38:04 发布

阅读量3.3k

点赞数

分类专栏： Hbase 文章标签： hbase bloomFilte java

本文链接：https://blog.csdn.net/u010809185/article/details/51165291

版权

Hbase 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文介绍了Bloom filter在Hbase中的作用，它能有效地减少磁盘IO次数。适用于用户定期更新部分行的场景，并探讨了数据单元格大小对使用Bloom filter的影响。文章还提到了行级与行加列级Bloom Filter的选择取决于操作模式，尤其是对于整行操作的情况。同时，文中提供了一个简单的Java实现示例。

摘要由CSDN通过智能技术生成

Bloom filter 简单而言就是对hash 表的创新，用在 Hbase 中可以有有效减少磁盘IO次数。
这里写图片描述
图片来源：hbase 权威指南

**使用场景总结：

当用户定期更新所有行时不适合使用Bloom filter，当用户定期更新部分行时，适合使用Bloom filter
当数据单元格较小时不合适使用Bloom filter (因为此时将会有太多的Bloom filter)
使用行级Bloom filter 还是行加列级Bloom Filter 取决于使用模式，当操作是整行操作时，采用Bloom Filter 操作较合适

下面是一个java 的简单实现

package basic;
/*
* @author: wjf
* @version: 2016年4月15日 下午10:05:28
*/

import java.util.BitSet;

public class BloomFilter {
    private static int DEFAULT_SIZE=1<<24;
    private int[] seeds={3,5,7,11,13,17,31,41};
    private static BitSet bits=new BitSet(DEFAULT_SIZE);
    private SimpleHash[] hashs=new SimpleHash[seeds.length];
    public boolean addValue(String value){
        if(value==null){
            return false;
        }else{
            for(int i=0;i<seeds.length;i++){
                hashs[i]=new SimpleHash(DEFAULT_SIZE,seeds[i]);
                bits.set(hashs[i].hash(value),true);
            }
            return true;
        }
    }
    public boolean contains(String value){
        if(value==null){
            return false;
        }else{
            boolean ret=true;
            for(SimpleHash h:hashs){
                ret=ret && bits.get(h.hash(value));
                if(ret == false){
                    return false;
                }
            }
            return true;
        }
    }

    public static void main(String[] args) {
        // TODO Auto-generated method stub
        BloomFilter bfilter=new BloomFilter();
        bfilter.addValue("just for test");
        System.out.println(bfilter.contains("just for test"));
    }

}
class SimpleHash{
    private int cap;
    private int seed;
    public SimpleHash(int cap,int seed){
        this.cap=cap;
        this.seed=seed;
    }
    public int hash(String value){
        int result=0;
        for(int i=0;i<value.length();i++){
            result=result*seed+value.charAt(i);
        }
        return (cap-1)&result;
    }
}

WYSIWYG-所见即所得

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Hbase 高级特性Bloom filter

Bloom filter 简单而言就是对hash 表的创新，用在 Hbase 中可以有有效减少磁盘IO次数。图片来源：hbase 权威指南下面是一个java 的简单实现package basic;/** @author: wjf* @version: 2016年4月15日下午10:05:28*/import java.util.BitSet;public class Bloom
复制链接

扫一扫

专栏目录