Flink--Hybrid Source提出的动机及实现原理介绍

Hybrid Source的提出动机

在实践中,许多Flink作业需要按顺序从多个数据源读取数据,具体有如下2个场景:

  • Change Data Capture (CDC): 用户可以将数据的快照存储在HDFS/S3中,数据的更新日志存储在数据库binlog或Kafka中
  • 机器学习特征回填: 当向模型添加新特性时,需要从几个月前到现在的原始数据计算该特性。在大多数情况下,历史数据和实时数据分别存储在两种不同的存储系统中,例如HDFS和Kafka。

在过去,用户可能必须运行两个不同的Flink作业,或者在SourceFunction中进行一些修改来处理这种情况,针对大多数用户,这种实现过于复杂:

  • 基于当前不同连接器的代码实现,多个源之间的切换很复杂。如何在切换前控制上游源的具体状态,以及下游源如何将上游源的状态转换为初始状态具有重要意义。
  • 自动切换构成混合源的用户定义可切换源会导致复杂的实现。在大多数情况下,用户添加自定义源,Flink会按照指定的添加顺序自动切换这些源。
  • 目前还没有有效的机制来支持历史数据和实时数据之间平滑的源迁移,例如FileSystem和Kafka源之间的源迁移。平滑迁移需要定义源切换的规则和时间,以及使用什么凭证进行切换,以确保数据的完整性和一致性。

为了平滑地支持这种场景,Flink作业需要先从HDFS读取历史数据,然后切换到Kafka读取实时记录,所以需要引入了一个建立在新的Source API (FLIP-27)之上的“混合Source”API来帮助用户处理这种情况,

目标如下:<

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

enjoy编程

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值