自适应批作业调度器：为 Flink 批作业自动推导并行度

最新推荐文章于 2023-08-05 15:52:01 发布

宋罗世家技术屋

最新推荐文章于 2023-08-05 15:52:01 发布

阅读量119

点赞数

分类专栏：行业数字化研究及信息化建设专栏文章标签： flink java 数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_61890005/article/details/126414615

版权

行业数字化研究及信息化建设专栏专栏收录该内容

46 篇文章 12 订阅 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Flink 1.15中引入的自适应批作业调度器，该调度器能根据实际数据量自动推导批处理作业的并行度，降低调优难度，适应数据量变化。文章详细阐述了启用调度器的配置，实现细节，包括收集执行节点数据量、计算并行度、动态构建和更新执行拓扑等，以及未来可能的自动负载均衡改进。

摘要由CSDN通过智能技术生成

01引言

对大部分用户来说，为 Flink 算子配置合适的并行度并不是一件容易的事。对于批作业，小的并行度会导致作业运行时间长，故障恢复慢，而不必要的大并行度会导致资源浪费，任务部署和数据 shuffle 开销也会变大。

为了控制批作业的执行时长，算子的并行度应该和其需要处理的数据量成正比。用户需要通过预估算子需要处理的数据量来配置并行度。但准确预估算子需要处理的数据量是一件很困难的事情：需要处理的数据量可能每天都在变化，作业中可能会存在大量的 UDF 和复杂算子导致难以判断其产出的数据量。

为了解决这个问题，我们在 Flink 1.15 中引入了一种新的调度器：自适应批作业调度器（Adaptive Batch Scheduler）。自适应批作业调度器会在作业运行时根据每个算子需要处理的实际数据量来自动推导并行度。它会带来以下好处：

大大降低批处理作业并发度调优的繁琐程度；
可以根据处理的数据量为不同的算子配置不同的并行度，这对于之前只能配置全局并行度的 SQL 作业尤其有益；
可以更好的适应每日变化的数据量。

02用法

使 Flink 自动推导算子的并行度&#

了解本专栏

超级会员免费看

宋罗世家技术屋

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
自适应批作业调度器：为 Flink 批作业自动推导并行度

在目前的设计中，子分区范围是按照子分区的个数来划分的，我们可以改成按照子分区中的数据量来划分，这样每个子分区范围内的数据量可以大致相同，从而平衡下游执行节点的工作量。例如，如果一个逻辑节点的并行度为 100，就会生成 100 个对应的执行节点。自适应批作业调度器调度作业的方式和默认调度器基本相同，唯一的区别是：自适应批作业调度器是从一个空的执行拓扑开始调度，在处理任何调度事件之前，都会尝试决定所有逻辑节点的并行度，然后尝试为逻辑节点生成对应的执行节点，并通过执行边连接上游节点，更新执行拓扑。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

宋罗世家技术屋 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。