1.前言
对于很多做离线或者实时数仓的小伙伴来说,我先问几个问题,看看小伙伴萌能回答上来吗?
-
⭐ 你知道状态是什么吗?在离线数据开发的经历中,你碰到过状态的概念吗?
-
⭐ 为什么离线数仓不需要状态,实时数据开发中老是提到状态的概念?
-
⭐ Flink 中的状态、状态后端、全局一致性快照(Checkpoint\Savepoint) 的作用都是什么,这三个概念的关联又是什么?
-
⭐ Flink 是通过什么机制来做 Checkpoint 的?为什么这套机制能够做到精确一次呢?
-
⭐ Flink Checkpoint 是基于 Chandy-Lamport 算法的,但是 Flink 的实现相比 Chandy-Lamport 算法之间又有哪些优点、缺点?
-
⭐ Flink Checkpoint 用到了 barrier,为什么用了 barrier 做的快照就能保证全局一致性快照的正确性?barrier 到底起到了什么作用?
小伙伴们思考一下,都能回答上来么,如果对于某些问题你还有疑问,楼主会通过本篇文章帮你解答这些问题,理清这些概念!
由于本文内容较多,所以博主将本文分为上,下两集,本别在两天发出。
我们先来看看博主整理的本文介绍思路以及博主希望大家在看完每一小节之后能够学到的内容。
- ⭐ 什么是状态?
希望小伙伴萌能够发散思维的去思考状态,状态这个概念不仅仅只限于 Flink 的状态,状态是一个无处不在的东西
- ⭐ 什么是全局一致性快照?其和状态的管理?
举一些状态、全局一致性快照的一些生活、工作中应用的例子,希望大家大家学习到全局一致性快照 = 一个应用某一时刻(瞬间)所有事物所处状态的合集,两者是包含关系
- ⭐ 为什么需要全局一致性快照?
希望大家学习到有了全局一致性快照能帮助我们做故障恢复、<