Flink CDC-2.0 未来可期

最新推荐文章于 2024-04-17 22:15:17 发布

Lara1111

最新推荐文章于 2024-04-17 22:15:17 发布

阅读量716

点赞数

文章标签： flink 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38424594/article/details/118873663

版权

概念

一句话: 面向数据库的变更，是一种用于捕获数据库中数据变更的技术. 做技术的小伙伴们都懂,概念我不多说~

目前cdc 组件的特性比较

应用场景

数据同步

数据分发

数据采集

目前的痛点

Flink CDC 底层封装了 Debezium， Debezium 同步一张表分为两个阶段:

全量阶段: 查询当前表中所有记录

增量阶段:从 binlog 消费变更数据

那么,flink cdc 目前就会有如下的痛点. 因为debezium也是一样的

如果再细剖一下为什么会是痛点,我们重点来分析一下, debezium对数据库锁的细节

研究可以参考锁

FLINK FLIP-27

借鉴 Netflix

https://arxiv.org/pdf/2010.12597v1.pdf
https://cwiki.apache.org/confluence/display/FLINK/FLIP-27%3A+Refactor+Source+Interface

Flink CDC 2.0的设计

核心目标:

做到无锁的情况下,保证数据的一致性,并且能够并发高效的同步

核心思路

Chunk 切片+Chunk读取

我的理解是:

比如对于binlog,旧的cdc 是加一个全局锁,先同步全量,然后再捕获增量数据,这样做速度慢,并且在锁的同时会新增无数其他的烦恼.

而flinkCDC 2.0的设计思路是:

不加锁,先全量的读取将数据做chunk切片(按照主键)分成很多的片段,不同片段的区间做成左闭右开,.... ,并标记每一个chunk的低位点和高位点.

mysql 变更的数据,我们也叫增量数据根据算法,刚好落在某一个chunk的区间中,如图所示,那么这个chunk区间将做以下的汇聚,记录最后一次的操作,这里简单理解成merge,

如果Flink CDC 2.0 能保证全量里每个chunk的数据一致,同时也能保证update的增量数据按主键规则,落到指定的chunk中,并且最终结果数据一致,那么可以推断能保证表的数据一致性,

那么库的一致性也就完成,我们的flink CDC 2.0的核心设计思路如此,我上面的分析是根据最近 flink meetup 中的徐榜江老师经常的讲解得出的心得笔记体会.
ppt分享详情请文档链接：http://note.youdao.com/noteshare?id=d24e015c9fa389a9b2cecb0efc6e208f&sub=0A979601178643F6A4CE08A727B02182MySQL-CDC 2.0

https://github.com/ververica/flink-cdc-connectors/pull/233

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
Flink CDC-2.0 未来可期

概念主要面向数据库的变更，是一种用于捕获数据库中数据变更的技术目前cdc 组件应用场景数据同步数据分发数据采集目前的痛点Flink CDC 底层封装了 Debezium， Debezium 同步一张表分为两个阶段:全量阶段:查询当前表中所有记录增量阶段:从 binlog 消费变更数据无锁:是否能保证数据的一致性flink cdc2.0 想要做到什么...
复制链接

扫一扫

Lara1111 CSDN认证博客专家 CSDN认证企业博客

码龄7年

45: 原创

40万+: 周排名

179万+: 总排名

10万+: 访问

: 等级

562: 积分

16: 粉丝

34: 获赞

10: 评论

177: 收藏

私信

关注

热门文章

分类专栏

hive 2篇
hadoop 3篇
elasticsearch 4篇
fileabeat 2篇
clickhouse 17篇
kafka 8篇
flink 6篇
sql 4篇
dorisDB 1篇
docker 1篇
monitor
study 1篇
工作
踩坑
工具类 3篇

最新评论

Clickhouse 字典表使用场景
奶思兔米题哦: 我做了下字典表通过dictGet()函数以及普通维表和大表的关联查询性能对比，感觉没有什么太大的差异
Clickhouse 字典表使用场景
Lara1111: 字典数据常驻内存特特性，比较适合保存常量或者经常使用的维度表数据(量小)，以避免不必要的JOIN数据, 因为ck本身join的性能不友好,所以我猜它又补了这样一个这么的功能
Clickhouse 字典表使用场景
Light Gao: 数据字典的作用是什么？场景是什么？
Flink CDC-2.0 未来可期
Cdf（人名）: 学习佳作，顺手点赞与关住,期待大佬回访！
Flink CDC-2.0 未来可期
大家一起学编程（python）: 作者肯定是那个别人家的孩子

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。