hbase java操作api - 过滤器Filter使用

过滤器(Filter)

  基础API中的查询操作在面对大量数据的时候是非常苍白的,这里Hbase提供了高级的查询方法:Filter。Filter可以根据簇、列、版本等更多的条件来对数据进行过滤,基于Hbase本身提供的三维有序(主键有序、列有序、版本有序),这些Filter可以高效的完成查询过滤的任务。带有Filter条件的RPC查询请求会把Filter分发到各个RegionServer,是一个服务器端(Server-side)的过滤器,这样也可以降低网络传输的压力。

  要完成一个过滤的操作,至少需要两个参数。一个是抽象的操作符,Hbase提供了枚举类型的变量来表示这些抽象的操作符:LESS/LESS_OR_EQUAL/EQUAL/NOT_EUQAL等;另外一个就是具体的比较器(Comparator),代表具体的比较逻辑,如果可以提高字节级的比较、字符串级的比较等。有了这两个参数,我们就可以清晰的定义筛选的条件,过滤数据。

抽象操作符(比较运算符)

LESS <

LESS_OR_EQUAL <=

EQUAL =

NOT_EQUAL <>

GREATER_OR_EQUAL >=

GREATER >

NO_OP 排除所有

比较器(指定比较机制)

BinaryComparator 按字节索引顺序比较指定字节数组,采用 Bytes.compareTo(byte[])

BinaryPrefixComparator 跟前面相同,只是比较左端的数据是否相同

NullComparator 判断给定的是否为空

BitComparator 按位比较

RegexStringComparator 提供一个正则的比较器,仅支持 EQUAL 和非 EQUAL

SubstringComparator 判断提供的子串是否出现在 value 中


过滤器汇总

过滤器分为两大类:比较过滤器和专用过滤器

 

比较过滤器

行键过滤器 RowFilter

//************************如rowkey包含s的************************
RowFilter rowFilter = new RowFilter(CompareFilter.CompareOp.EQUAL,
              new SubstringComparator("s"));
scan.setFilter(rowFilter);

列族过滤器 FamilyFilter

//************************为列族为course的,************************
     /*
      * 等于如下代码 scan.addFamily(Bytes.toBytes("course"));
     */
FamilyFilter familyFilter = new FamilyFilter(CompareFilter.CompareOp.EQUAL,
             new BinaryComparator(Bytes.toBytes("course")));
scan.setFilter(familyFilter);

列过滤器 QualifierFilter

//************************列标识名为yuwen的************************
     /*
     等于如下代码 scan.addColumn(Bytes.toBytes("course"), Bytes.toBytes("yuwen"));
     */
QualifierFilter qualifierFilter = new QualifierFilter(CompareFilter.CompareOp.EQUAL,
                new BinaryComparator(Bytes.toBytes("yuwen")));
scan.setFilter(qualifierFilter);

值过滤器 ValueFilter

//************************值过滤器,对所有列族下所有列的值进行过滤,这里为包含5的************************
ValueFilter valueFilter = new ValueFilter(
           CompareFilter.CompareOp.EQUAL,
           new SubstringComparator("5"));
scan.setFilter(valueFilter);

 

专用过滤器

单列值过滤器 SingleColumnValueFilter ----会返回满足条件的整行
单列值排除器 SingleColumnValueExcludeFilter -----返回排除了该列的结果 与上面的结果相反

//************************单列值过滤器,按指定列的值进行过滤,这里为包含00的************************
SingleColumnValueFilter singleColumnValueFilter = new SingleColumnValueFilter(
                Bytes.toBytes("course"),
                Bytes.toBytes("yuwen"),
                CompareFilter.CompareOp.EQUAL,
                new SubstringComparator("00"));
scan.setFilter(singleColumnValueFilter);

前缀过滤器 PrefixFilter----针对行键

//************************PrefixFilter是将rowkey前缀为指定字符串的数据全部过滤出来并返回给用户。************************
        /**
         * 但是hbase的PrefixFilter比较粗暴,并没有根据filter做过多的查询优化。
         * 上述代码会scan整个区间的数据,得到一条数据就判断其是否符合前缀条件,不符合就读吓一条,直到找到前缀为def的数据。
         * 因此,我们可以指定一下startkey
         */
PrefixFilter prefixFilter = new PrefixFilter(Bytes.toBytes("l"));
scan.setFilter(prefixFilter);

列前缀过滤器 ColumnPrefixFilter

//************************基于列标识名(即Qualifier)前缀过滤数据的ColumnPrefixFilter  ( 该功能用QualifierFilter也能实现 )************************
ColumnPrefixFilter columnPrefixFilter = new ColumnPrefixFilter(Bytes.toBytes("e"));
scan.setFilter(columnPrefixFilter);

指定多个列名的,列前缀过滤器 MultipleColumnPrefixFilter

//************************基于多个列名(即Qualifier)前缀过滤数据的MultipleColumnPrefixFilter
    /*
    MultipleColumnPrefixFilter 和 ColumnPrefixFilter 行为差不多,但可以指定多个前缀
    */
byte[][] prefixes = new byte[][] {Bytes.toBytes("y"), Bytes.toBytes("e")};
Filter multipleColumnPrefixFilter = new MultipleColumnPrefixFilter(prefixes);
scan.setFilter(multipleColumnPrefixFilter);

分页过滤器PageFilter

PageFilter pageFilter = new PageFilter(3);
scan.setFilter(pageFilter);


其它过滤器

FilterList过滤器列表,指定多个过滤器使用

//************************过滤器列表,过滤组合条件,参数:两个都满足,或满足其中一个************************
FilterList filterList = new FilterList(FilterList.Operator.MUST_PASS_ALL);
//过滤器1-----列标识名过滤器,这里为列标识名为yuwen的
QualifierFilter qualifierFilter = new QualifierFilter(CompareFilter.CompareOp.EQUAL,
                new BinaryComparator(Bytes.toBytes("yuwen")));
//过滤器2-----单列值过滤器,按指定列的值进行过滤,这里为包含00的
SingleColumnValueFilter singleColumnValueFilter = new SingleColumnValueFilter(
                Bytes.toBytes("course"),
                Bytes.toBytes("yuwen"),
                CompareFilter.CompareOp.EQUAL,
                new SubstringComparator("500"));
//添加过滤器
filterList.addFilter(qualifierFilter);
filterList.addFilter(singleColumnValueFilter);
scan.setFilter(filterList);

ColumnRangeFilte 基于列范围(即Qualifier)过滤数据

//************************如下:返回列名开头是a 到  d的所有列数据
        /**
         * 构造函数:
         * ColumnRangeFilter(byte[] minColumn, boolean minColumnInclusive, byte[] maxColumn, boolean maxColumnInclusive)
         * 参数解释:
         * minColumn - 列范围的最小值,如果为空,则没有下限;
         * minColumnInclusive - 列范围是否包含minColumn ;
         * maxColumn - 列范围最大值,如果为空,则没有上限;
         * maxColumnInclusive - 列范围是否包含maxColumn 。
         */
byte[] startColumn = Bytes.toBytes("e");
byte[] endColumn = Bytes.toBytes("y");
Filter columnRangeFilter = new ColumnRangeFilter(startColumn, true, endColumn, true);
scan.setFilter(columnRangeFilter);

FirstKeyOnlyFilter,只会取得每个rowkey,第一个列族,第一个列的数据,可以用于计数

FirstKeyOnlyFilter firstKeyOnlyFilter = new FirstKeyOnlyFilter();
scan.setFilter(firstKeyOnlyFilter);

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值