hbase java操作api - 过滤器Filter使用_hbase prefixfilter-CSDN博客

本文链接：https://blog.csdn.net/qq_41712271/article/details/108567129

过滤器（Filter）

　　基础API中的查询操作在面对大量数据的时候是非常苍白的，这里Hbase提供了高级的查询方法：Filter。Filter可以根据簇、列、版本等更多的条件来对数据进行过滤，基于Hbase本身提供的三维有序（主键有序、列有序、版本有序），这些Filter可以高效的完成查询过滤的任务。带有Filter条件的RPC查询请求会把Filter分发到各个RegionServer，是一个服务器端（Server-side）的过滤器，这样也可以降低网络传输的压力。

　　要完成一个过滤的操作，至少需要两个参数。一个是抽象的操作符，Hbase提供了枚举类型的变量来表示这些抽象的操作符：LESS/LESS_OR_EQUAL/EQUAL/NOT_EUQAL等；另外一个就是具体的比较器（Comparator），代表具体的比较逻辑，如果可以提高字节级的比较、字符串级的比较等。有了这两个参数，我们就可以清晰的定义筛选的条件，过滤数据。

抽象操作符（比较运算符）

LESS <

LESS_OR_EQUAL <=

EQUAL =

NOT_EQUAL <>

GREATER_OR_EQUAL >=

GREATER >

NO_OP 排除所有

比较器（指定比较机制）

BinaryComparator 按字节索引顺序比较指定字节数组，采用 Bytes.compareTo(byte[])

BinaryPrefixComparator 跟前面相同，只是比较左端的数据是否相同

NullComparator 判断给定的是否为空

BitComparator 按位比较

RegexStringComparator 提供一个正则的比较器，仅支持 EQUAL 和非 EQUAL

SubstringComparator 判断提供的子串是否出现在 value 中

过滤器汇总

过滤器分为两大类：比较过滤器和专用过滤器

比较过滤器

行键过滤器 RowFilter

//************************如rowkey包含s的************************
RowFilter rowFilter = new RowFilter(CompareFilter.CompareOp.EQUAL,
              new SubstringComparator("s"));
scan.setFilter(rowFilter);

列族过滤器 FamilyFilter

//************************为列族为course的,************************
     /*
      * 等于如下代码 scan.addFamily(Bytes.toBytes("course"));
     */
FamilyFilter familyFilter = new FamilyFilter(CompareFilter.CompareOp.EQUAL,
             new BinaryComparator(Bytes.toBytes("course")));
scan.setFilter(familyFilter);

列过滤器 QualifierFilter

//************************列标识名为yuwen的************************
     /*
     等于如下代码 scan.addColumn(Bytes.toBytes("course"), Bytes.toBytes("yuwen"));
     */
QualifierFilter qualifierFilter = new QualifierFilter(CompareFilter.CompareOp.EQUAL,
                new BinaryComparator(Bytes.toBytes("yuwen")));
scan.setFilter(qualifierFilter);

值过滤器 ValueFilter

//************************值过滤器，对所有列族下所有列的值进行过滤，这里为包含5的************************
ValueFilter valueFilter = new ValueFilter(
           CompareFilter.CompareOp.EQUAL,
           new SubstringComparator("5"));
scan.setFilter(valueFilter);

专用过滤器

单列值过滤器 SingleColumnValueFilter ----会返回满足条件的整行
单列值排除器 SingleColumnValueExcludeFilter -----返回排除了该列的结果与上面的结果相反

//************************单列值过滤器,按指定列的值进行过滤，这里为包含00的************************
SingleColumnValueFilter singleColumnValueFilter = new SingleColumnValueFilter(
                Bytes.toBytes("course"),
                Bytes.toBytes("yuwen"),
                CompareFilter.CompareOp.EQUAL,
                new SubstringComparator("00"));
scan.setFilter(singleColumnValueFilter);

前缀过滤器 PrefixFilter----针对行键

//************************PrefixFilter是将rowkey前缀为指定字符串的数据全部过滤出来并返回给用户。************************
        /**
         * 但是hbase的PrefixFilter比较粗暴，并没有根据filter做过多的查询优化。
         * 上述代码会scan整个区间的数据，得到一条数据就判断其是否符合前缀条件，不符合就读吓一条，直到找到前缀为def的数据。
         * 因此，我们可以指定一下startkey
         */
PrefixFilter prefixFilter = new PrefixFilter(Bytes.toBytes("l"));
scan.setFilter(prefixFilter);

列前缀过滤器 ColumnPrefixFilter

//************************基于列标识名(即Qualifier)前缀过滤数据的ColumnPrefixFilter  （ 该功能用QualifierFilter也能实现 ）************************
ColumnPrefixFilter columnPrefixFilter = new ColumnPrefixFilter(Bytes.toBytes("e"));
scan.setFilter(columnPrefixFilter);

指定多个列名的，列前缀过滤器 MultipleColumnPrefixFilter

//************************基于多个列名(即Qualifier)前缀过滤数据的MultipleColumnPrefixFilter
    /*
    MultipleColumnPrefixFilter 和 ColumnPrefixFilter 行为差不多，但可以指定多个前缀
    */
byte[][] prefixes = new byte[][] {Bytes.toBytes("y"), Bytes.toBytes("e")};
Filter multipleColumnPrefixFilter = new MultipleColumnPrefixFilter(prefixes);
scan.setFilter(multipleColumnPrefixFilter);

分页过滤器PageFilter

PageFilter pageFilter = new PageFilter(3);
scan.setFilter(pageFilter);

其它过滤器

FilterList过滤器列表，指定多个过滤器使用

//************************过滤器列表,过滤组合条件,参数:两个都满足，或满足其中一个************************
FilterList filterList = new FilterList(FilterList.Operator.MUST_PASS_ALL);
//过滤器1-----列标识名过滤器，这里为列标识名为yuwen的
QualifierFilter qualifierFilter = new QualifierFilter(CompareFilter.CompareOp.EQUAL,
                new BinaryComparator(Bytes.toBytes("yuwen")));
//过滤器2-----单列值过滤器,按指定列的值进行过滤，这里为包含00的
SingleColumnValueFilter singleColumnValueFilter = new SingleColumnValueFilter(
                Bytes.toBytes("course"),
                Bytes.toBytes("yuwen"),
                CompareFilter.CompareOp.EQUAL,
                new SubstringComparator("500"));
//添加过滤器
filterList.addFilter(qualifierFilter);
filterList.addFilter(singleColumnValueFilter);
scan.setFilter(filterList);

ColumnRangeFilte 基于列范围(即Qualifier)过滤数据

//************************如下：返回列名开头是a 到  d的所有列数据
        /**
         * 构造函数：
         * ColumnRangeFilter(byte[] minColumn, boolean minColumnInclusive, byte[] maxColumn, boolean maxColumnInclusive)
         * 参数解释：
         * minColumn - 列范围的最小值，如果为空，则没有下限；
         * minColumnInclusive - 列范围是否包含minColumn ；
         * maxColumn - 列范围最大值，如果为空，则没有上限；
         * maxColumnInclusive - 列范围是否包含maxColumn 。
         */
byte[] startColumn = Bytes.toBytes("e");
byte[] endColumn = Bytes.toBytes("y");
Filter columnRangeFilter = new ColumnRangeFilter(startColumn, true, endColumn, true);
scan.setFilter(columnRangeFilter);

FirstKeyOnlyFilter,只会取得每个rowkey，第一个列族，第一个列的数据，可以用于计数

FirstKeyOnlyFilter firstKeyOnlyFilter = new FirstKeyOnlyFilter();
scan.setFilter(firstKeyOnlyFilter);