文件过滤_HBase自定义过滤器

最新推荐文章于 2022-07-05 10:06:36 发布

陈健坤

最新推荐文章于 2022-07-05 10:06:36 发布

阅读量295

点赞数

文章标签：文件过滤

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31001313/article/details/112668288

版权

一、概述

在查询Hbase数据时，如果能巧妙使用其过滤器，可以减少数据的扫描范围，加快数据的查询，HBase中内置了很多过滤器，但内置的过滤器无法满足我们的需求时，可以自定义过滤器来实现我们的需求。二、过滤器调用顺序

1、基于行键执行过滤：

boolean filterRowKey(byte[] buffer, int offset, int length);

如果行需要被过滤掉(不出现在结果集合中)，返回true，反之返回false(也就是需要返回客户端)。

2、如果该行没有被第1步给过滤掉，接着调用这个方法处理当前行的每个KeyValue对象：

ReturnCode filterKeyValue(KeyValue v);

返回的ReturnCode决定该KeyValue对象将要发送的什么事情。

3、在第2步过滤KeyValue对象后，接着是这个方法：

void filterRow(List kvs);

这个方法被传入成功通过过滤的KeyValue对象列表(发送给客户端的列表)。倘若这个方法访问到这个列表，此时可以在这个列表中进行任何转换或运算。

4、如果还想过滤掉某些行，此时这个方法再一次提供了这个机会：

boolean filterRow();

返回true，将过滤掉正在计算的行。(不返回给客户端)

5、通过在过滤器中构造逻辑来提早停止一次扫描。就是这个方法：

boolean filterAllRemaining();

这是过滤器过滤过程中最后调用的一个方法。

void reset():重置过滤器

三、自定义过滤器

1、继承FilterBase(可以少些点模板代码)，并实现其中的方法filterKeyValue()、filterRow()、reset()、toByteArray()、parseFrom();其中的parseFrom父类中没有，直接编写方法即可,parseFrom方法前面如下：

public static Filter parseFrom(final byte[] pbBytes)throws DeserializationException

2、编写protobuf描述文件(*.proto)

3、使用protobuf编译定义的protobuf描述文件：

protoc -I=./ --java_out=../java

-I: 指定proto描述文件的父目录

--java_out: 指定java的类路径

4、将自定义的filter打包并上传到regionserver上(可以直接放入到lib目录下，也可以在hbase-env.sh目录中导入:export HBASE_CLASSPATH=custom-filter.jar目录)

5、在需要使用的地方导入自定义的filter

四、总结

以上就是在HBase中自定义过滤器的全过程，可以看到还是比较简单的，简单的背后是HBase架构巧妙的设计的原因。这样我们就可以按照自己的需求来定义自己的过滤器。其中需要使用ptotobuf来进行编译描述文件。

扫码关注“破极大数据”，和破极一起学习大数据，努力年薪百万，走上人生巅峰！

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
文件过滤_HBase自定义过滤器

一、概述在查询Hbase数据时，如果能巧妙使用其过滤器，可以减少数据的扫描范围，加快数据的查询，HBase中内置了很多过滤器，但内置的过滤器无法满足我们的需求时，可以自定义过滤器来实现我们的需求。二、过滤器调用顺序 1、基于行键执行过滤： boolean filterRowKey(byte[] buffer, int offset, int length); 如果行需要被过滤掉(不出...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。