HBase之Filter

本文介绍了HBase中Filter的重要作用,它通过谓词下推减少网络IO。详细阐述了Filter在Scan过程中的执行流程,包括在RegionScannerImpl和ScanQueryMatcher中的应用,并给出了如何自定义Filter的步骤。通过基本和进阶示例展示了Filter.proto的使用,以及如何实现条件过滤,例如a+b=c的行过滤。最后,文章提供了自定义Filter的完整实践过程。
摘要由CSDN通过智能技术生成

Filter的作用是谓词下推,就是在Scan查询数据时,将过滤数据的操作放到服务端进行,减少数据的传输,减少网络IO。

介绍Filter使用方法的文章很多,就不再赘述了,主要记录下如何自定义Filter。

解析

在一次Scan的过程中,Filter存在于2个地方:

  1. RegionScannerImpl中,用来做整体流程的把控、StoreScanner的过滤和行级别的过滤处理。
  2. ScanQueryMatcher中,做Cell级别的过滤处理。

RegionScannerImpl中调用Filter的方法:

  1. 首先是isFamilyEssential,在HRegion创建Scanner时,用于筛选StoreScanner,当有多个列族时,筛选不通过的StoreScanner将放进joinedHeap中。joinedHeap中的StoreScanner不参与主流程的查询,只在主要StoreScanner查询完,确定了要这行数据,才会执行查询,并且只执行ScanQueryMatcher中调用Filter的方法。
  2. hasFilterRow。返回true的话,才有机会执行filterRowCells、filterRowCellsWithRet。
  3. filterRowCells。
  4. filterRowKey。这里Filter判断是否要过滤掉这一行,true表示过滤掉这一行。
  5. filterRowCellsWithRet。
  6. filterRow。执行差不多了,再判断一次,是否要过滤掉这一行。
  7. 在完成了一行的查询之后,会调用reset,清空临时状态。另外有种特殊情况,当Size、Time或Batch达到上限时,查询会提前返回,这时候,是不调用reset的,状态会持续到下一次请求。
  8. filterAllRemaining。true表示筛选是否完成了,没有更多数据了,整个Scan完成。

ScanQueryMatcher中调用Filter的方法:

  1. filterAllRemaining。里面也给了一次机会,判断是否执行完成了Scan。
  2. filterKeyValue。ColumnTracker返回值是MatchCode.INCLUDE时,默认一定是MatchCode.INCLUDE,会调用filterKeyValue,执行Filter的过滤操作,返回值是MatchCode。
  3. transformCell、getNextCellHint。严格来说,这2个方法是在StoreScanner里执行的
    1. 判断返回值为INCLUDE_AND_SEEK_NEXT_COL时,执行Filter.transformCell。
    2. 判断返回值为SEEK_NEXT_USING_HINT时,执行Filter.getNextCellHint。

Filter还有2个方法,用于RPC时,将Filter发送到服务端

  1. toByteArray。首先需要转成字节码发送,调用的就是Filter的toByteArray方法。

  2. parseFrom。到服务端再转成Filter,调用的是Filter的类方法parseFrom。

Protobuf安装

既然要发送实例到服务端,就需要Protobuf了。HBase1.3.2版本使用的是protobuf2.5.0,所以这里装个2.5.0。其他版本在Git Release上找下,安装流程是一样的。2.x和3.x生成的Java代码并不兼容,已有3.x也按照下面步骤执行就行。

  1. 下载protobuf-2.5.0.zip,解压。
  2. 检查下是否安装autoreconf和make,执行brew install autoconf && brew install automake
  3. 到目录下执行./autogen.sh && ./configure && make
  4. 检查下make状态,make check,没问题执行make install
  5. 检查下是否安装成功,protoc --version显示libprotoc 2.5.0

基本示例

先写个Filter.proto文件,版本proto2。外部类名字不能和内部类一样,名就取个Filter。

syntax = "proto2";

option java_package = "cn.edu.bupt.hbase.protobuf.generated";
option java_outer_classname = "Filter";
option java_generate_equals_and_hash = true;
option optimize_for = SPEED;

message AnFilter {
}

执行protoc编译命令,生成Protobuf版的Filter类。

protoc --proto_path=src/main/protobuf/ --java_out=src/main/java/ src/main/protobuf/Filter.proto

写个Java的Filter类,继承FilterBase,引用前面生成的Filter.AnFilter。

public class AnFilter extends FilterBase {
   

    @Override
    public ReturnCode filterKeyValue(Cell cell) throws IOException {
   
        // 默认值
        return null;
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值