Flink自定义Source where条件下推
背景:
最近要写一个自定义的Oracle connector,用来做oracle数据的采集;目前大部分功能都做好了,不过由于没有where下推功能,所以每次筛选都会先把整表数据读出来再做筛选,对此寻求解决方法。
一、解决方案
自定义source需要实现ScanTableSource接口,在此接口定义中可以看到有各种下推接口支持,找到了我SupportsFilterPushDown接口。

二、SupportsFilterPushDown定义

使用此接口需要重写applyFilters函数,applyFilters通过参数filters告诉我们有哪些过滤条件,要求提取过滤条件后返回一个Result类,Result类包含acceptedFilters(已经被处理的过滤条件),remainingFilters(保留的过滤条件)两块。
三、Flink源码SupportsFilterPushDown的使用
看看官方的Connector是如何使用此接口的,搜索了Flink1.13源码发现只有FileSystemTableSource实现了此接口。那就参考此处的写法。



FileSystemTableSource重写applyFilters,applyFilters中把filter存到类的私有变量filters中;
然后getScanRuntimeProvider调用时再把filters传参给bulkReaderFormat.applyfilters调用。
BulkDecodingFormat如何使用filters?


搜一下BulkDecodingFormat发现OrcFileFormatFactory的createDecodingFormat会生成并返回BulkDecodingFormat,并且会调用applyfilters。
createRuntimeDecoder拿到filters后会进行遍历,每次遍历调用toOrcPredicate。

toOrcPredicate中会把expression强转为``CallExpression然后获取里面的过滤条件。
这里就不继续分析下去了,尝试按照上面的写法直接加到自己的代码里调试一下看看CallExpression是什么内容。
四、实际使用SupportsFilterPushDown
按照源码的写法添加到自己的connector后进行测试
以下为Flinksql脚本,添加了where条件

以下为实现SupportsFilterPushDown后,applyfilters的参数filters的值

解释filters的数据后,重新生成过滤条件组合到数据库的select语句中即可,通过此方式完成where下推实现了。
1392

被折叠的 条评论
为什么被折叠?



