Doris实战——结合Flink构建极速易用的实时数仓_flink doris

最新推荐文章于 2024-07-24 11:26:09 发布

2401_84181326

最新推荐文章于 2024-07-24 11:26:09 发布

阅读量992

点赞数 16

分类专栏： 2024年程序员学习文章标签： flink 大数据

本文链接：https://blog.csdn.net/2401_84181326/article/details/138043835

版权

本文介绍了如何结合Flink和Doris构建实时数仓，通过Flink CDC实现数据增量与全量同步，确保数据一致性，并探讨了数据模型选择、数仓分层构建、数据更新处理和性能提升策略，适用于大数据领域的实时分析场景。

摘要由CSDN通过智能技术生成

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip204888 （备注大数据）

正文

在数据同步上，通过Flink CDC将RDS的数据实时同步到Doris。通过Routine Load将kafka等消息系统的数据实时同步到Doris，在数仓分层上，ODS层通常选择明细模型构建，DWD层可以通过SQL调度任务，对ODS数据抽取并获取，DWS和ADS层则可以通过物化视图和Rollup进行构建。在数据湖上， Doris ⽀持为 Hive、Iceberg 、Hudi 以及Delta Lake（todo）提供联邦分析和湖仓加速的能⼒。在数据应用上，Apache Doris 既可以承载批量数据加工处理的需求，也可以承载高吞吐的 Ad-hoc(数据探索) 和高并发点查询等多种应⽤场景。

三、解决方案

3.1 如何实现数据的增量与全量同步

3.1.1 增量及全量数据同步

在全量数据和增量的同步上，采取了Flink CDC来实现。其原理非常简答，Flink CDC实现了基于Snapshot的全量数据同步，基于 BinLog的实时增量数据同步。全量数据同步和增量数据同步可以自动切换，因此在数据迁移过程中，只需要配置好同步的表即可。当Flink任务启动时，优先进行历史表的数据同步，同步完成后自动切换成实时同步。

3.1.2 数据一致性保证

如何保证数据一致性是大家重点关注的问题之一，那么在新架构是如何实现的呢？

数据⼀致性⼀般分为“最多⼀次” 、“⾄少⼀次”和“精确⼀次”三种模型。

最多⼀次（At-Most-Once）：发送⽅仅发送消息，不期待任何回复。在这种模型中，数据的⽣产和消费过程中可能出现数据丢失的问题。

⾄少⼀次（At-Least-Once）：发送⽅不断重试，直到对⽅收到为⽌。在这个模型中，⽣产和消费过程都可能出现数据重复。

精确⼀次（Exactly-Once）：能够保证消息只被严格发送⼀次，并且只被严格处理⼀次。这种数据模型能够严格保证数据⽣产和消费过程中的准确⼀致性。

Flink CDC通过Flink Checkpoint 机制结合Doris两阶段提交可以实现端到端的Exactly Once语义，具体过程分为四步：

事务开启（Flink Job启动及Doris事务开启）：当Flink任务启动后，Doris Sink 会发起 Precommit 请求，随后开启写⼊事务。
数据传输（Flink Job的运行和数据传输）：在Flink Job运行过程中，Doris Sink不断从上游算子获取数据，并通过 HTTP Chunked 的⽅式持续将数据传输到 Doris。
事务预提交：当Flink开始进行Checkpoint时，Flink会发起Checkp