Flink自定义Source where条件下推

Flink自定义Source where条件下推

背景:

最近要写一个自定义的Oracle connector,用来做oracle数据的采集;目前大部分功能都做好了,不过由于没有where下推功能,所以每次筛选都会先把整表数据读出来再做筛选,对此寻求解决方法。

一、解决方案

自定义source需要实现ScanTableSource接口,在此接口定义中可以看到有各种下推接口支持,找到了我SupportsFilterPushDown接口。
在这里插入图片描述
二、SupportsFilterPushDown定义
在这里插入图片描述
使用此接口需要重写applyFilters函数,applyFilters通过参数filters告诉我们有哪些过滤条件,要求提取过滤条件后返回一个Result类,Result类包含acceptedFilters(已经被处理的过滤条件),remainingFilters(保留的过滤条件)两块。

三、Flink源码SupportsFilterPushDown的使用

看看官方的Connector是如何使用此接口的,搜索了Flink1.13源码发现只有FileSystemTableSource实现了此接口。那就参考此处的写法。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
FileSystemTableSource重写applyFilters,applyFilters中把filter存到类的私有变量filters中;

然后getScanRuntimeProvider调用时再把filters传参给bulkReaderFormat.applyfilters调用。

BulkDecodingFormat如何使用filters?
在这里插入图片描述
在这里插入图片描述
搜一下BulkDecodingFormat发现OrcFileFormatFactory的createDecodingFormat会生成并返回BulkDecodingFormat,并且会调用applyfilters。
createRuntimeDecoder拿到filters后会进行遍历,每次遍历调用toOrcPredicate。
在这里插入图片描述
toOrcPredicate中会把expression强转为``CallExpression然后获取里面的过滤条件。

这里就不继续分析下去了,尝试按照上面的写法直接加到自己的代码里调试一下看看CallExpression是什么内容。

四、实际使用SupportsFilterPushDown

按照源码的写法添加到自己的connector后进行测试

以下为Flinksql脚本,添加了where条件
在这里插入图片描述
以下为实现SupportsFilterPushDown后,applyfilters的参数filters的值
在这里插入图片描述
解释filters的数据后,重新生成过滤条件组合到数据库的select语句中即可,通过此方式完成where下推实现了。

Flink是一个高性能流式处理引擎,可以读取各种各样的数据源,包括自定义的源。自定义源是使用Flink的一种方式,主要是为了读取一些非标准的数据源或者改善性能表现。 自定义source是一个接口,需要实现org.apache.flink.streaming.api.functions.source.SourceFunction接口。该接口只有两个方法,一个是run(),另一个是cancel()。在run()中实现数据读取的逻辑,cancel()用于取消读取。自定义source主要包括数据什么时候开始读取,如何读取数据及什么时候读取结束等。 实现自定义source需要在程序入口处调用StreamExecutionEnvironment对象中的addSource()方法,将自定义source添加到批处理中。示例如下: ```java DataStreamSource<String> dataSource = env.addSource(new MySource()); ``` 其中,MySource自定义的数据源。 在自定义source中,可以采用文件缓存方式来提升读取性能。通过FileChannel打开文件,使用ByteBuffer读取文件,然后将ByteBuffer通过Flink的DataStream传递给后续算子处理。这种方式可以大大提升文件读取的性能,减少文件IO的次数。示例如下: ```java try { FileInputStream inputStream = new FileInputStream(filePath); FileChannel inChannel = inputStream.getChannel(); ByteBuffer buffer = ByteBuffer.allocate(1024 * 1024 * 5); while (inChannel.read(buffer) != -1) { buffer.flip(); sourceContext.collect(buffer); buffer.clear(); } } catch (IOException e) { e.printStackTrace(); } ``` 自定义source的实现需要根据具体的数据源进行,但总体来说,实现自定义源并不复杂,只需要理解Flink数据处理的机制,并编写封装好的代码即可。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值