【CDC实时数据集成】之流消息存储工具

最新推荐文章于 2024-09-24 16:50:36 发布

桃子酱K

最新推荐文章于 2024-09-24 16:50:36 发布

阅读量426

点赞数 10

文章标签： flink

本文链接：https://blog.csdn.net/Kng_007/article/details/136256374

版权

前言：目前flink cdc+hudi可以直接从类似于mysql的数据源进行数据集成，但是考虑到mysql负载（IO、CPU等），一般情况下，会先将binlog采集到类似于kafka的消息流平台中，后续由flink消费写入hudi表。

本篇文章主要调研将binlog写入到流消息平台的方案，maxwell、canal的采集工具不再本次讨论中。

一、流数据存储方案

1.1、Kafka：分布式消息流平台

● 流数据无法持久化存储（服务和存储一体、存储有限）
● 水平扩展复杂度高

1.2、Pulsar：分布式消息流平台

● 流数据无法持久化存储（存储成本高）
● 灵活的计算存储分离
● pulsar在2.1之后版本拥有分层存储能力，可将历史数据存入hdfs或s3，pulsar sql可以查询
在这里插入图片描述

1.3、Pravega：分布式流数据存储平台

● 流数据存储在hdfs、s3的存储系统中
● 二级存储
在这里插入图片描述

二、binlog采集方案

1.1、debezium + Pravega：多表和topic对应发送

参考：https://cncf.pravega.io/blog/2022/08/16/change-data-capture-with-pravega-debezium/

1.2、debezium + Pulsar：多表和topic对应发送

https://pulsar.apache.org/docs/3.1.x/io-cdc-debezium/

1.3、自研flink cdc + kafka：多表和topic对应发送

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

桃子酱K

关注关注

10
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Flink CDC 2.0及其他数据同步工具对比

JustinMars的博客

08-04

2070

Flink CDC Connectors 是 Flink 的一组 Source 连接器，是 Flink CDC 的核心组件，这些连接器负责从 MySQL、PostgreSQL、Oracle、MongoDB 等数据库读取存量历史数据和增量变更数据。 Flink CDC Connectors 是一个独立的开源项目...

【大数据】Flink CDC 实时同步mysql数据

最新发布

congge

10-07

1万+

Flink CDC 实时同步mysql数据

参与评论您还未登录，请先登录后发表或查看评论

CDC工具之Canal

datacreating的博客

09-24

3427

CDC 的全称是 Change Data Capture ，在广义的概念上，只要能捕获数据变更的技术，我们都可以称为 CDC 。我们通常所描述的CDC 技术主要是指面向数据库的变更，是一种用于捕获数据库中数据变更的技术。

CDC工具之Debezium

datacreating的博客

11-30

6615

Debezium是一组分布式服务，用于捕获数据库中的更改，以便您的应用程序可以看到这些更改并做出响应。

通过无代码CDC工具实现Oracle实时同步到Mysql

RestCloud微服务治理及快速开发平台

06-30

926

实时同步数据对企业来说至关重要，因为它可以确保不同系统之间的数据始终保持一致性和最新性，提供准确的决策支持和及时的业务反应。选择一款具备实时性、可靠性、灵活性、高性能、监控管理等关键特性的CDC实时数据同步工具，将能够满足企业对数据实时同步的需求，提升数据管理的效率和质量，为企业决策和运营提供可靠的数据支持。通过ETLCloud CDC功能只需简单几步即可配置出Oracle到MySQL的实时同步场景，上述实时同步数据的过程中我们还对实时数据进行了过滤和加工处理，也都是通过无代码的方式实现的。

CDC主流工具对比

fanliunian的博客

01-19

4447

Debezium能做什么 RedHat开源的Debezium是一个将多种数据源实时变更数据捕获，形成数据流输出的开源工具。它是一种CDC（Change Data Capture）工具，工作原理类似大家所熟知的Canal, DataBus, Maxwell等，是通过抽取数据库日志来获取变更的。官方介绍为： Debezium is an open source distributed platform for change data capture. Start it up, point it at

Java_Flink CDC是一个流数据集成工具.zip

05-22

Java_Flink CDC（Change Data Capture）是Apache Flink项目中的一个功能强大的流数据集成工具，它允许实时捕获数据库的变化并将其转化为可处理的流数据。这个工具在大数据处理领域中有着广泛的应用，特别是在实时...

Flink CDC介绍：基于流的数据集成工具

学亮编程手记

09-24

687

Flink CDC 是一个基于流的数据集成工具，旨在为用户提供一套功能更加全面的编程接口（API）。该工具使得用户能够以 YAML 配置文件的形式，优雅地定义其 ETL（Extract, Transform, Load）流程，并协助用户自动化生成定制化的 Flink 算子并且提交 Flink 作业。

基于流计算 Oceanus（Flink） CDC 做好数据集成场景

cloudbigdata的博客

02-16

2753

作者：黄龙，腾讯 CSIG 高级工程师数据时代，企业对技术创新和服务水准的要求不断提高，数据已成为企业极其重要的资产。无论是在在企业数据中台的建设，亦或者是打造一站式数据开发和数据治理的P...

Flink-cdc更好的流式数据集成工具

weixin_38251332的博客

05-23

1577

Flink CDC 是基于Apache Flink的一种数据变更捕获技术，用于从数据源（如数据库）中捕获和处理数据的变更事件。CDC技术允许实时地捕获数据库中的增、删、改操作，将这些变更事件转化为流式数据，并能够对这些事件进行实时处理和分析。Flink CDC提供了与各种数据源集成的功能，包括常见的关系型数据库（如MySQL、PostgreSQL、Oracle等）以及NoSQL数据库（如MongoDB、HBase等）。

常见的数据抽取工具对比

weixin_44852067的博客

04-22

2407

ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程，是数据仓库的生命线。抽取（Extract主要是针对各个业务系统及不同服务器的分散数据，充分理解数据定义后，规划需要的数据源及数据定义，制定可操作的数据源，制定增量抽取和缓慢渐变的规则。转换（transform。

数据实时增量同步之CDC工具—Canal、mysql_stream、go-mysql-transfer、Maxwell

weixin_42526326的博客

11-04

5374

数据实时增量同步之CDC工具—Canal、mysql_stream、go-mysql-transfer、Maxwell什么是CDC？CDC工具对比实现原理：Mysql binlog 讲解：mysql binlog的三种格式常见的数据采集工具（相关知识）：DataX (处理离线数据)Flume（处理实时数据）Logstash（处理离线数据）Sqoop（处理离线数据）数据实时增量同步之CDC工具—Canal、mysql_stream、go-mysql-transfer、Maxwell 什么是CDC？ CD

实时数据集成的完美搭档：CDC技术与Kafka集成的解决方案

RestCloud微服务治理及快速开发平台

07-18

1086

介绍两款能够快速且免费实现CDC技术与Kafka集成的主流工具：Flink CDC和ETLCloud CDC。测试前的环境准备：JDK8以上、Mysql数据库（开启BinLog日志）、kafka。

走近数据变更捕获（CDC）：定义、优势和用例

https://risingwave.com/

06-25

1314

数据变更捕获（CDC）是一种捕捉数据变更的技术。它能实时监控数据源（如数据库、应用系统等）中数据的增、删、改等变化，并记录下这些变更信息。与传统批处理方式相比，CDC 实现了近乎实时的数据集成和同步，使企业能够随时掌握最新信息，从而基于数据做出及时决策。

【读书笔记】CDC-关于工具

taizans Blog

07-07

939

关于工具原型： --Balsamiq mockups（client & web） --Axure（web etc.） --ipad sketch（pad）设计： --Firework（高保框架） --PS（视觉） --Flash/AS（交互Demo） or Adobe Catalyse 团队及管理： --产品-项目-任务-工作 Demo of tc cd

基于flink-cdc实现监控数据源的实时变更数据捕获

06-06

总之，Flink-CDC是实现实时数据源监控和变更数据捕获的强大工具，其高效、稳定且具有广泛生态支持的特点，使得它在大数据实时处理领域具有广泛的应用前景。对于需要实现实时数据同步和ETL的企业来说，Flink-CDC是一...

4.3.1 Flink-流处理框架-Flink CDC数据实时数据同步-何为CDC？

敲代码的乔帮主

03-16

3377

目录 1.写在前面 2.实现机制 3.开源CDC方案对比 1.写在前面 CDC 的全称是 Change Data Capture（(变更数据获取），在广义的概念上，只要是能捕获数据变更的技术，我们都可以称之为 CDC 。目前通常描述的 CDC 技术主要面向数据库的变更，是一种用于捕获数据库中数据变更的技术。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订...

Flink实时数仓CDC对比选型

yunweijie_cn的博客

04-09

2304

实时数仓CDC对比选型实时数仓中数据同步需要选取一个CDC工具，这里对比几种CDC的特点。例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。 Flink CDC Maxwell Canal 断点续传有（通过checkpoint）有（保存在MySQL）有（保存在本地磁盘）数据初始化功能有（多库多表）有（单表）无 SQL与数据条数关系无无一对一（炸开）封装格式自定义 JSON JSON

构建实时数仓的流批一体ETL工具-Streamsets

03-26

本课程来自一线项目(实时数仓建设)。创建实时数仓，是当前很多公司的需求，如何搭建实时数仓的架构？实时数仓需要有实时同步数据的ETL工具。在架构选型时，调研了很多ETL工具，包括Kettle、Azkaban和Streamsets，最终选择了Streamsets。如果您是数仓架构师、大数据开发工程师，本课程对您来说，非常有益。课程全程以实战的方式进行，每节课一到两个例子，并且会将创建实时数仓过程中的经验和教训穿插到例子讲解中，欢迎大家一起讨论实时数仓架构设计！

ODI工具CDC增量数据抽取

12-13

ODI增量抽取数据，带上有设置代理抽取，定时抽取，等操作手册