过滤器(Filter)
基础API中的查询操作在面对大量数据的时候是非常苍白的,这里Hbase提供了高级的查询方法:Filter。Filter可以根据簇、列、版本等更多的条件来对数据进行过滤,基于Hbase本身提供的三维有序(主键有序、列有序、版本有序),这些Filter可以高效的完成查询过滤的任务。带有Filter条件的RPC查询请求会把Filter分发到各个RegionServer,是一个服务器端(Server-side)的过滤器,这样也可以降低网络传输的压力。
要完成一个过滤的操作,至少需要两个参数。一个是抽象的操作符,Hbase提供了枚举类型的变量来表示这些抽象的操作符:LESS/LESS_OR_EQUAL/EQUAL/NOT_EUQAL等;另外一个就是具体的比较器(Comparator),代表具体的比较逻辑,如果可以提高字节级的比较、字符串级的比较等。有了这两个参数,我们就可以清晰的定义筛选的条件,过滤数据。
抽象操作符(比较运算符)
LESS <
LESS_OR_EQUAL <=
EQUAL =
NOT_EQUAL <>
GREATER_OR_EQUAL >=
GREATER >
NO_OP 排除所有
比较器(指定比较机制)
BinaryComparator 按字节索引顺序比较指定字节数组,采用 Bytes.compareTo(byte[])
BinaryPrefixComparator 跟前面相同,只是比较左端的数据是否相同
NullComparator 判断给定的是否为空
BitComparator 按位比较
RegexStringComparator 提供一个正则的比较器,仅支持 EQUAL 和非 EQUAL
SubstringComparator 判断提供的子串是否出现在 value 中
过滤器汇总
过滤器分为两大类:比较过滤器和专用过滤器
比较过滤器
行键过滤器 RowFilter
//************************如rowkey包含s的************************
RowFilter rowFilter = new RowFilter(CompareFilter.CompareOp.EQUAL,
new SubstringComparator("s"));
scan.setFilter(rowFilter);
列族过滤器 FamilyFilter
//************************为列族为course的,************************
/*
* 等于如下代码 scan.addFamily(Bytes.toBytes("course"));
*/
FamilyFilter familyFilter = new FamilyFilter(CompareFilter.CompareOp.EQUAL,
new BinaryComparator(Bytes.toBytes("course")));
scan.setFilter(familyFilter);
列过滤器 QualifierFilter
//************************列标识名为yuwen的************************
/*
等于如下代码 scan.addColumn(Bytes.toBytes("course"), Bytes.toBytes("yuwen"));
*/
QualifierFilter qualifierFilter = new QualifierFilter(CompareFilter.CompareOp.EQUAL,
new BinaryComparator(Bytes.toBytes("yuwen")));
scan.setFilter(qualifierFilter);
值过滤器 ValueFilter
//************************值过滤器,对所有列族下所有列的值进行过滤,这里为包含5的************************
ValueFilter valueFilter = new ValueFilter(
CompareFilter.CompareOp.EQUAL,
new SubstringComparator("5"));
scan.setFilter(valueFilter);
专用过滤器
单列值过滤器 SingleColumnValueFilter ----会返回满足条件的整行
单列值排除器 SingleColumnValueExcludeFilter -----返回排除了该列的结果 与上面的结果相反
//************************单列值过滤器,按指定列的值进行过滤,这里为包含00的************************
SingleColumnValueFilter singleColumnValueFilter = new SingleColumnValueFilter(
Bytes.toBytes("course"),
Bytes.toBytes("yuwen"),
CompareFilter.CompareOp.EQUAL,
new SubstringComparator("00"));
scan.setFilter(singleColumnValueFilter);
前缀过滤器 PrefixFilter----针对行键
//************************PrefixFilter是将rowkey前缀为指定字符串的数据全部过滤出来并返回给用户。************************
/**
* 但是hbase的PrefixFilter比较粗暴,并没有根据filter做过多的查询优化。
* 上述代码会scan整个区间的数据,得到一条数据就判断其是否符合前缀条件,不符合就读吓一条,直到找到前缀为def的数据。
* 因此,我们可以指定一下startkey
*/
PrefixFilter prefixFilter = new PrefixFilter(Bytes.toBytes("l"));
scan.setFilter(prefixFilter);
列前缀过滤器 ColumnPrefixFilter
//************************基于列标识名(即Qualifier)前缀过滤数据的ColumnPrefixFilter ( 该功能用QualifierFilter也能实现 )************************
ColumnPrefixFilter columnPrefixFilter = new ColumnPrefixFilter(Bytes.toBytes("e"));
scan.setFilter(columnPrefixFilter);
指定多个列名的,列前缀过滤器 MultipleColumnPrefixFilter
//************************基于多个列名(即Qualifier)前缀过滤数据的MultipleColumnPrefixFilter
/*
MultipleColumnPrefixFilter 和 ColumnPrefixFilter 行为差不多,但可以指定多个前缀
*/
byte[][] prefixes = new byte[][] {Bytes.toBytes("y"), Bytes.toBytes("e")};
Filter multipleColumnPrefixFilter = new MultipleColumnPrefixFilter(prefixes);
scan.setFilter(multipleColumnPrefixFilter);
分页过滤器PageFilter
PageFilter pageFilter = new PageFilter(3);
scan.setFilter(pageFilter);
其它过滤器
FilterList过滤器列表,指定多个过滤器使用
//************************过滤器列表,过滤组合条件,参数:两个都满足,或满足其中一个************************
FilterList filterList = new FilterList(FilterList.Operator.MUST_PASS_ALL);
//过滤器1-----列标识名过滤器,这里为列标识名为yuwen的
QualifierFilter qualifierFilter = new QualifierFilter(CompareFilter.CompareOp.EQUAL,
new BinaryComparator(Bytes.toBytes("yuwen")));
//过滤器2-----单列值过滤器,按指定列的值进行过滤,这里为包含00的
SingleColumnValueFilter singleColumnValueFilter = new SingleColumnValueFilter(
Bytes.toBytes("course"),
Bytes.toBytes("yuwen"),
CompareFilter.CompareOp.EQUAL,
new SubstringComparator("500"));
//添加过滤器
filterList.addFilter(qualifierFilter);
filterList.addFilter(singleColumnValueFilter);
scan.setFilter(filterList);
ColumnRangeFilte 基于列范围(即Qualifier)过滤数据
//************************如下:返回列名开头是a 到 d的所有列数据
/**
* 构造函数:
* ColumnRangeFilter(byte[] minColumn, boolean minColumnInclusive, byte[] maxColumn, boolean maxColumnInclusive)
* 参数解释:
* minColumn - 列范围的最小值,如果为空,则没有下限;
* minColumnInclusive - 列范围是否包含minColumn ;
* maxColumn - 列范围最大值,如果为空,则没有上限;
* maxColumnInclusive - 列范围是否包含maxColumn 。
*/
byte[] startColumn = Bytes.toBytes("e");
byte[] endColumn = Bytes.toBytes("y");
Filter columnRangeFilter = new ColumnRangeFilter(startColumn, true, endColumn, true);
scan.setFilter(columnRangeFilter);
FirstKeyOnlyFilter,只会取得每个rowkey,第一个列族,第一个列的数据,可以用于计数
FirstKeyOnlyFilter firstKeyOnlyFilter = new FirstKeyOnlyFilter();
scan.setFilter(firstKeyOnlyFilter);