flink sql 使用自定义的mysql source分片读取

最新推荐文章于 2024-06-13 09:30:51 发布

卡搜偶

最新推荐文章于 2024-06-13 09:30:51 发布

阅读量1.2k

点赞数

分类专栏： Flink flink生产问题汇总，及其面试相关问题文章标签： sql mysql flink

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/Emperor_CJ/article/details/126503849

版权

Flink 同时被 2 个专栏收录

13 篇文章 8 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

flink生产问题汇总，及其面试相关问题

1 篇文章 0 订阅

订阅专栏

本文介绍了如何针对大数据量表在Flink SQL中自定义并行MySQL源，以提高Table Scan的效率。通过实现RichParallelSourceFunction，根据主键将数据均匀分配给每个并行度，利用批次读取策略避免一次性加载过多数据。测试结果显示，相比于官方JDBC连接，自定义源能在更短时间内完成大表的读取。

摘要由CSDN通过智能技术生成

最近遇到个场景，需要对大表进行 Table Scan，使用官方的 jdbc connect, 发现在执行的时候，如果表的数据量很大（百万级别），在 select 阶段会消耗大量的时间，如下：

任务执行了 9 分钟多，数据才上来，数据上来后，差不多一批就全部上来了

差不多 10 分钟读完，还不能通过增加并行度的方式提高读取速度

并行 mysql source 实现

在自定义的 mysql lookup source 基础上添加 TableScan 的 Source

Source 继承 RichParallelSourceFunction

构造方法中接收配置参数
open 方法中创建 jdbc 连接，基于主键查询表中的最大值，最小值
run 方法中，基于任务的并行度，将数据按主键，均分给每个并行度
每个并行度分批次读取分给自己的数据

MysqlOption

并行 source，最

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
flink sql 使用自定义的mysql source分片读取

最近遇到个场景，需要对大表进行 Table Scan，使用官方的 jdbc connect, 发现在执行的时候，如果表的数据量很大（百万级别），在 select 阶段会消耗大量的时间，如下：任务执行了 9 分钟多，数据才上来，数据上来后，差不多一批就全部上来了差不多 10 分钟读完，还不能通过增加并行度的方式提高读取速度。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

卡搜偶 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。