flink sql （jdbc）如何支持where 条件下推数据库

最新推荐文章于 2024-05-12 06:45:57 发布

大壮001

最新推荐文章于 2024-05-12 06:45:57 发布

阅读量3.2k

点赞数 3

分类专栏：大数据文章标签：数据库 sql flink 大数据 mysql

本文链接：https://blog.csdn.net/samur2/article/details/129397379

版权

大数据专栏收录该内容

16 篇文章 8 订阅

订阅专栏

背景

最近在使用 flink sql （jdbc）做离线数据同步（历史数据修复），遇到一个问题，只同步几条数据的情况下，测试环境执行竟然需要30+分钟。

进一步研究，发现where条件没有下推到数据库执行，而是全表读取（排查过程详见下面的文章）。
flink sql 执行慢问题排查（flink jdbc where 条件没有下推数据库）
flink sql 源码走读 — 解释flink jdbc where 条件为什么没有下推数据库

为了支持过滤条件下推，这里提供一些解决方案。

解决办法

提供两个解决办法：
1、使用分区字段来做过滤
2、修改源码或者自定义connector

1、使用分区字段来做过滤
关于connector配置，详见官网（）
我们可以使用分区扫描的功能来实现数据过滤。在这里插入图片描述
举个例子：

create table mysql_test_12 (
ID STRING,
NAME STRING,
primary key(ID) not enforced
) with (
'connector' = 'jdbc',
'url' = 'jdbc:mysql://${mysql_hosts}:${mysql_port}/sit?useSSL=false&useUnicode=true&characterEncoding=UTF-8',
'username' = '${mysql_username}',
'password' = '${mysql_pass}',
'scan.fetch-size'='1000',
'table-name' = 'test_12',
'scan.partition.column' = 'ID',
'scan.partition.num' = '1',
'scan.partition.lower-bound' = '20200604',
'scan.partition.upper-bound' = '20200604'
);

create table es_test_12 (
ID STRING,
NAME STRING,
primary key(ID) not enforced
) with (
'connector' = '${es_connector}',
'hosts' = '${es_hosts}',
'username' = '${es_username}',
'password' = '${es_pass}',
'index' = 'test_12'
);

insert into es_test_12
select
   *
from mysql_test_12
;

落库执行的SQL是：

SELECT ID, NAME FROM test_12 WHERE ID BETWEEN 20200604 AND 20200604

上述方法起到数据过滤的效果，减少查询开销，加速程序执行效率，使用起来也比较简单。

但同时也会存在一些缺点：
1）、分区字段目前只支持数字、日期、时间戳，对于字符串是不支持的；
2）、between 无法使用索引；
2）、使用起来不够灵活，比如不支持多个过滤条件、函数使用等

2、修改源码或者自定义connector
修改源码或者自定义connector原理差不多，考虑到自定义connector拓展性更强，这里选择自定义connector的方式来解决。
下面记载开发过程，主要提供一下解决思路：

新的connector type为"jdbc-custom"。

1、首先在resource 下创建目录：META-INF/service，在该目录下创建文件org.apache.flink.table.factories.Factory
在这里插入图片描述
文件内容为新建的factory类：com.custom.connector.JdbcCustomDynamicTableFactory

2、为了减少代码开发，可以直接拷贝源码 JdbcDynamicTableFactory、JdbcDynamicTableSource 到com.custom.connector目录下，并修改类名为JdbcCustomDynamicTableFactory、JdbcCustomDynamicTableSource 。

JdbcCustomDynamicTableFactory的 IDENTIFIER = “jdbc” 修改为 IDENTIFIER = “jdbc_custom”;

createDynamicTableSource()方法也做下简单修改
在这里插入图片描述
3、在JdbcDynamicTableSource#getScanRuntimeProvider() 方法中改造SQL生成逻辑，主要修改的代码如下：

其中customOptions 是新增的配置项，定义了"filter" 选项，在 JdbcCustomDynamicTableFactory 中定义。可以参考jdbcReadOptions定义过程。

最终使用方法如下：
在这里插入图片描述

以上通过2种方式优化了flink sql 执行效率，使过滤条件入库执行。

在项目中，本人采用了第二种方式，效果还不错。希望以上思路对你有帮助~~

大壮001

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
flink sql （jdbc）如何支持where 条件下推数据库

为了支持flink sql (jdbc)过滤条件下推，这里提供一些解决方案。最近在使用 flink sql （jdbc）做离线数据同步（历史数据修复），只同步几条数据的情况下，测试环境执行竟然需要30+分钟。进一步研究，发现where条件没有下推到数据库执行，而是全表读取。本文提供了2种解决办法。
复制链接

扫一扫

专栏目录