hudi系列-基于cdc应用与优化

最新推荐文章于 2024-06-05 17:04:47 发布

矛始

最新推荐文章于 2024-06-05 17:04:47 发布

阅读量1.3k

点赞数

分类专栏： hudi系列文章标签：数据仓库大数据 hudi

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/czmacd/article/details/129865451

版权

hudi系列专栏收录该内容

22 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了CDC在数据实时流转中的重要性，并详细阐述了Hudi在CDC方面的特点，包括数据范围、变更及捕获策略。通过应用Hudi的CDC能力，可以构建实时数仓，优化数据处理流程。文章还提出了针对Hudi CDC的优化思考，探讨了多表数据处理的可能性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. CDC是个好东西

曾经做数据同步受存储引擎和采集工具的限制，经常都是全量定时同步，亦或是以自增ID或时间作为增量的依据进行增量定时同步，无论是哪种，都存在数据延时较大、会重复同步不变的数据、浪费资源等问题。后来刚接触canal时还大感惊奇，基于mysql的binlog可以这么方便实时同步最新数据，然而历史数据的初始化仍然得使用第三方ETL工具来全量同步。直到flink cdc项目诞生，完全解决了前面的痛点。实时技术的发展已经不能满足于数据只能实时采集，还需要实时地进行数据建模和数据分析，即全链路实时。

cdc的本质是促进了数据在不同环节之间的流转速度，它是实现全链路实时的基础

2. hudi的cdc特点

MOR表的设计天然地支持CDC，数据写入时，所有的change data会临时以行格式保存在avro文件中，再定期地合并到base文件中。hudi的timeine设计又可以实时或随时capture到change data，其实就是所谓的增量查询(Incremental Queries)

2.1 数据范围

hudi支持多种在读取任务启动时指定的数据

了解本专栏

超级会员免费看

博客等级

码龄13年

72
原创

235
点赞

518
收藏

5367
粉丝

关注

私信

热门文章

分类专栏

hudi系列付费 22篇
superset 1篇
docker 1篇
doris 1篇
flink 10篇
flink-cdc 2篇
spark 9篇
impala 3篇
机器学习 3篇
kettle 6篇
phoenix 3篇
java 9篇
tomcat 1篇
kafka 2篇
kudu 2篇
hadoop 1篇
hive 2篇
爬虫

最新评论

【flink】Rocksdb TTL状态全量快照持续递增
矛始: 改掉源码将已过期key的value设置为null，而不是原来的NULL_VALUE
【flink】Rocksdb TTL状态全量快照持续递增
游.Aero: 测试将过期的value修改为null后，这个是啥意思
superset基于docker修改数据库
矛始: 我当时用的这个镜像，你试下：apache/superset:2.1.0
superset基于docker修改数据库
求水之鱼: 你好，博主这个报错怎么解决的啊？百度很多没找到有效解决办法 Exception: Can not find valid pkg-config name. Specify MYSQLCLIENT_CFLAGS and MYSQLCLIENT_LDFLAGS env vars manually
【flink】SinkUpsertMaterializer
OnlyotDN: 这里可以这么理解，Sink端的UpsertKey在文中的例子中就是Join on 的key dim_id，不包含Sink端的PrimaryKey并不包含在内，那么相同Sink PrimaryKey可能就会来自多个上游，那么就可能产生乱序问题。而这个算子就是把到Sink的记录进行拦截，将所有的记录保存在一个数组中，如果是INSERT 或者 UPDATE_AFTER 则保存后继续往下传，但是涉及到删除也就是UPDATE_BEFORE 或者 DELETE，因为存在乱序的问题，所以要注意如果删除在新增/更新之后，那么如果直接下发删除语句则会导致记录被删除，所以这里出现两种处理行为，第一种就是删完数组为空，那么下发DELETE语句没啥问题，如果删除的是最后一条且不为空，从这个数组的角度看，现在有的数组里最后一条就是当前的。这个算子很容易被误用的点就是字段中存在 CURRENT_TIMESTAMP，会导致 DELETE语句无法下发，如果状态设置得不合理，那么也会导致DELETE语句无法下发。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。