【Flink】FLINK-CDC之入门

1、什么是CDC?

CDC 是 Change Data Capture(变更数据获取)的简称。在广义的概念上,只要能捕获数据变更的技术,我们都可以称为 CDC 。通常我们说的 CDC 技术主要面向数据库的变更,是一种用于捕获数据库中数据变更的技术。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。

2、CDC技术应用场景?

(1)、数据同步:用于备份,容灾(如mysql主从,不同服务器之前的数据同步)

(2)、数据分发:一个数据源分发给多个下游(如多个业务方需要使用同一份数据)

(3)、数据采集:面向数据仓库/数据湖的 ETL 数据集成(如采集业务数据库数据到数仓)

3、CDC种类?

(1)、基于查询的CDC:每次同步获取数据采用查询的方式获取,用于离线查询,批处理,但无法保证数据一致性以及数据的实时性,常见大数据组件有Sqoop、datax、kettle等

(2)、基于日志的CDC:采用读取数据库日志的方式获取数据,可保障数据一致性和实时性,常见的大数据组件有c

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Flink-CDC是由阿里巴巴出品的一个开源项目,用于将关系型数据库中的数据变更捕获并实时同步到流处理引擎中。而ClickHouse则是由俄罗斯Yandex公司开发的列式分布式数据库,用于高效地存储和查询大规模数据。 通过结合Flink-CDC和ClickHouse,可以实现将关系型数据库的实时数据变更同步到ClickHouse中,从而满足一些需要实时处理和分析数据的场景。 首先,Flink-CDC可以通过监控数据库的binlog日志,捕获到数据库中发生的数据变更操作,如插入、更新或删除等操作。 然后,Flink-CDC会将捕获到的数据变更通过MQ等方式发送给Flink流处理引擎。 Flink流处理引擎会根据接收到的数据变更进行实时处理,并将处理结果发送到ClickHouse中进行存储。 ClickHouse作为一个高性能的列式数据库,能够有效地存储大规模的数据,并提供快速的查询和分析能力。通过将实时数据同步到ClickHouse中,可以方便地进行复杂的数据查询和分析操作。 同时,Flink-CDC还支持将ClickHouse中的数据变更反向同步回关系型数据库,实现数据的双向同步。 通过整合Flink-CDC和ClickHouse,可以快速实现实时数据流处理和分析的能力,满足了各种对实时数据处理和分析的需求。这对于一些需要实时查询和分析大规模数据的应用场景,如实时监控系统、实时推荐系统等,具有重要的意义。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一杯咖啡半杯糖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值