hbase java操作api - 过滤器Filter使用

过滤器(Filter)

  基础API中的查询操作在面对大量数据的时候是非常苍白的,这里Hbase提供了高级的查询方法:Filter。Filter可以根据簇、列、版本等更多的条件来对数据进行过滤,基于Hbase本身提供的三维有序(主键有序、列有序、版本有序),这些Filter可以高效的完成查询过滤的任务。带有Filter条件的RPC查询请求会把Filter分发到各个RegionServer,是一个服务器端(Server-side)的过滤器,这样也可以降低网络传输的压力。

  要完成一个过滤的操作,至少需要两个参数。一个是抽象的操作符,Hbase提供了枚举类型的变量来表示这些抽象的操作符:LESS/LESS_OR_EQUAL/EQUAL/NOT_EUQAL等;另外一个就是具体的比较器(Comparator),代表具体的比较逻辑,如果可以提高字节级的比较、字符串级的比较等。有了这两个参数,我们就可以清晰的定义筛选的条件,过滤数据。

抽象操作符(比较运算符)

LESS <

LESS_OR_EQUAL <=

EQUAL =

NOT_EQUAL <>

GREATER_OR_EQUAL >=

GREATER >

NO_OP 排除所有

比较器(指定比较机制)

BinaryComparator 按字节索引顺序比较指定字节数组,采用 Bytes.compareTo(byte[])

BinaryPrefixComparator 跟前面相同,只是比较左端的数据是否相同

NullComparator 判断给定的是否为空

BitComparator 按位比较

RegexStringComparator 提供一个正则的比较器,仅支持 EQUAL 和非 EQUAL

SubstringComparator 判断提供的子串是否出现在 value 中


过滤器汇总

过滤器分为两大类:比较过滤器和专用过滤器

 

比较过滤器

行键过滤器 RowFilter

//************************如rowkey包含s的************************
RowFilter rowFilter = new RowFilter(CompareFilter.CompareOp.EQUAL,
              new SubstringComparator("s"));
scan.setFilter(rowFilter);

列族过滤器 FamilyFilter

//************************为列族为course的,************************
     /*
      * 等于如下代码 scan.addFamily(Bytes.toBytes("course"));
     */
FamilyFilter familyFilter = new FamilyFilter(CompareFilter.CompareOp.EQUAL,
             new BinaryComparator(Bytes.toBytes("course")));
scan.setFilter(familyFilter);

列过滤器 QualifierFilter

//************************列标识名为yuwen的************************
     /*
     等于如下代码 scan.addColumn(Bytes.toBytes("course"), Bytes.toBytes("yuwen"));
     */
QualifierFilter qualifierFilter = new QualifierFilter(CompareFilter.CompareOp.EQUAL,
                new BinaryComparator(Bytes.toBytes("yuwen")));
scan.setFilter(qualifierFilter);

值过滤器 ValueFilter

//************************值过滤器,对所有列族下所有列的值进行过滤,这里为包含5的************************
ValueFilter valueFilter = new ValueFilter(
           CompareFilter.CompareOp.EQUAL,
           new SubstringComparator("5"));
scan.setFilter(valueFilter);

 

专用过滤器

单列值过滤器 SingleColumnValueFilter ----会返回满足条件的整行
单列值排除器 SingleColumnValueExcludeFilter -----返回排除了该列的结果 与上面的结果相反

//************************单列值过滤器,按指定列的值进行过滤,这里为包含00的************************
SingleColumnValueFilter singleColumnValueFilter = new SingleColumnValueFilter(
                Bytes.toBytes("course"),
                Bytes.toBytes("yuwen"),
                CompareFilter.CompareOp.EQUAL,
                new SubstringComparator("00"));
scan.setFilter(singleColumnValueFilter);

前缀过滤器 PrefixFilter----针对行键

//************************PrefixFilter是将rowkey前缀为指定字符串的数据全部过滤出来并返回给用户。************************
        /**
         * 但是hbase的PrefixFilter比较粗暴,并没有根据filter做过多的查询优化。
         * 上述代码会scan整个区间的数据,得到一条数据就判断其是否符合前缀条件,不符合就读吓一条,直到找到前缀为def的数据。
         * 因此,我们可以指定一下startkey
         */
PrefixFilter prefixFilter = new PrefixFilter(Bytes.toBytes("l"));
scan.setFilter(prefixFilter);

列前缀过滤器 ColumnPrefixFilter

//************************基于列标识名(即Qualifier)前缀过滤数据的ColumnPrefixFilter  ( 该功能用QualifierFilter也能实现 )************************
ColumnPrefixFilter columnPrefixFilter = new ColumnPrefixFilter(Bytes.toBytes("e"));
scan.setFilter(columnPrefixFilter);

指定多个列名的,列前缀过滤器 MultipleColumnPrefixFilter

//************************基于多个列名(即Qualifier)前缀过滤数据的MultipleColumnPrefixFilter
    /*
    MultipleColumnPrefixFilter 和 ColumnPrefixFilter 行为差不多,但可以指定多个前缀
    */
byte[][] prefixes = new byte[][] {Bytes.toBytes("y"), Bytes.toBytes("e")};
Filter multipleColumnPrefixFilter = new MultipleColumnPrefixFilter(prefixes);
scan.setFilter(multipleColumnPrefixFilter);

分页过滤器PageFilter

PageFilter pageFilter = new PageFilter(3);
scan.setFilter(pageFilter);


其它过滤器

FilterList过滤器列表,指定多个过滤器使用

//************************过滤器列表,过滤组合条件,参数:两个都满足,或满足其中一个************************
FilterList filterList = new FilterList(FilterList.Operator.MUST_PASS_ALL);
//过滤器1-----列标识名过滤器,这里为列标识名为yuwen的
QualifierFilter qualifierFilter = new QualifierFilter(CompareFilter.CompareOp.EQUAL,
                new BinaryComparator(Bytes.toBytes("yuwen")));
//过滤器2-----单列值过滤器,按指定列的值进行过滤,这里为包含00的
SingleColumnValueFilter singleColumnValueFilter = new SingleColumnValueFilter(
                Bytes.toBytes("course"),
                Bytes.toBytes("yuwen"),
                CompareFilter.CompareOp.EQUAL,
                new SubstringComparator("500"));
//添加过滤器
filterList.addFilter(qualifierFilter);
filterList.addFilter(singleColumnValueFilter);
scan.setFilter(filterList);

ColumnRangeFilte 基于列范围(即Qualifier)过滤数据

//************************如下:返回列名开头是a 到  d的所有列数据
        /**
         * 构造函数:
         * ColumnRangeFilter(byte[] minColumn, boolean minColumnInclusive, byte[] maxColumn, boolean maxColumnInclusive)
         * 参数解释:
         * minColumn - 列范围的最小值,如果为空,则没有下限;
         * minColumnInclusive - 列范围是否包含minColumn ;
         * maxColumn - 列范围最大值,如果为空,则没有上限;
         * maxColumnInclusive - 列范围是否包含maxColumn 。
         */
byte[] startColumn = Bytes.toBytes("e");
byte[] endColumn = Bytes.toBytes("y");
Filter columnRangeFilter = new ColumnRangeFilter(startColumn, true, endColumn, true);
scan.setFilter(columnRangeFilter);

FirstKeyOnlyFilter,只会取得每个rowkey,第一个列族,第一个列的数据,可以用于计数

FirstKeyOnlyFilter firstKeyOnlyFilter = new FirstKeyOnlyFilter();
scan.setFilter(firstKeyOnlyFilter);

 

  • 4
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
下面是一个使用HBase API操作ScanWithInit方法的示例代码,其中我们将扫描表中的所有行并返回以"cf:col1"列族列为键的所有单元格的值: ```java import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.TableName; import org.apache.hadoop.hbase.client.Connection; import org.apache.hadoop.hbase.client.ConnectionFactory; import org.apache.hadoop.hbase.client.Result; import org.apache.hadoop.hbase.client.ResultScanner; import org.apache.hadoop.hbase.client.Scan; import org.apache.hadoop.hbase.filter.FilterList; import org.apache.hadoop.hbase.filter.SingleColumnValueFilter; import org.apache.hadoop.hbase.filter.CompareFilter.CompareOp; import org.apache.hadoop.hbase.util.Bytes; public class HBaseScanWithInitExample { public static void main(String[] args) throws IOException { Configuration conf = HBaseConfiguration.create(); Connection connection = ConnectionFactory.createConnection(conf); TableName tableName = TableName.valueOf("myTable"); Scan scan = new Scan(); scan.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("col1")); FilterList filterList = new FilterList(FilterList.Operator.MUST_PASS_ALL); SingleColumnValueFilter filter1 = new SingleColumnValueFilter(Bytes.toBytes("cf"), Bytes.toBytes("col2"), CompareOp.EQUAL, Bytes.toBytes("value1")); SingleColumnValueFilter filter2 = new SingleColumnValueFilter(Bytes.toBytes("cf"), Bytes.toBytes("col3"), CompareOp.GREATER_OR_EQUAL, Bytes.toBytes("value2")); filterList.addFilter(filter1); filterList.addFilter(filter2); scan.setFilter(filterList); ResultScanner scanner = connection.getTable(tableName).getScanner(scan); try { for (Result result : scanner) { byte[] valueBytes = result.getValue(Bytes.toBytes("cf"), Bytes.toBytes("col1")); String value = Bytes.toString(valueBytes); System.out.println("Value: " + value); } } finally { scanner.close(); connection.close(); } } } ``` 在上面的代码中,我们创建了一个连接到HBase的Connection对象,并指定要扫描的表名和列族列。然后,我们创建了一个FilterList对象,并添加了两个SingleColumnValueFilter过滤器,用于筛选出符合条件的行。接下来,我们将FilterList对象设置为Scan对象的过滤器,以便在扫描时应用过滤器。最后,我们通过ResultScanner迭代扫描结果,并使用getValue方法获取指定列族列的值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值