base自带的filter已经很多了,按照RK,CF,CQ过滤的都有
我最常用的PrefixFilter,按照rk前缀
RowFilter,按照rk比较
ColumnPrefixFilter,按照cq前缀
QualifierFilter,按照cq比较
hbase还有一堆WritableByteArrayComparable,可以满足各种比较
比如RegexStringComparator可以使用正则
但是在实际业务中,因为需求对数据要求是多样,对维度的,且数据是冗余,残缺,不可靠,不能枚举的。
所以自定义的Filter还是有用的,而且选择正确的方法继承,查询效率也可以很高
自定义filter继承的接口Filter,或是FilterBase
以下是重写的方法:
filterRowKey根据RK决定行是否被过滤,ex Profix
filterKeyValue根据KV决定行或列(ReturnCode)是否被过滤,
ex ColumnProfix ColumnCompare
filterRow(keyvalues)根据制定列值决定行是否过滤,
ex DependentColumnFilter
filterRow在之前Filter结束后,进行过滤,ex PageFilter
reset当一行读完,为了读下一行,清空当前行数据
filterAllRemainning当返回true,停止scan
为了提高自定义filter的执行效率,需要知道过滤器的执行流程图
我最常用的PrefixFilter,按照rk前缀
RowFilter,按照rk比较
ColumnPrefixFilter,按照cq前缀
QualifierFilter,按照cq比较
hbase还有一堆WritableByteArrayComparable,可以满足各种比较
比如RegexStringComparator可以使用正则
但是在实际业务中,因为需求对数据要求是多样,对维度的,且数据是冗余,残缺,不可靠,不能枚举的。
所以自定义的Filter还是有用的,而且选择正确的方法继承,查询效率也可以很高
自定义filter继承的接口Filter,或是FilterBase
以下是重写的方法:
filterRowKey根据RK决定行是否被过滤,ex Profix
filterKeyValue根据KV决定行或列(ReturnCode)是否被过滤,
ex ColumnProfix ColumnCompare
filterRow(keyvalues)根据制定列值决定行是否过滤,
ex DependentColumnFilter
filterRow在之前Filter结束后,进行过滤,ex PageFilter
reset当一行读完,为了读下一行,清空当前行数据
filterAllRemainning当返回true,停止scan
为了提高自定义filter的执行效率,需要知道过滤器的执行流程图