一、发展历史
Flink起源于一个名为Stratosphere的研究项目,目的是建立下一代大数据分析平台,于2014年4月16日成为Apache孵化器项目。Stratosphere的最初版本是基于Neffele的研究论文。下面的图表显示了Stratosphere随时间的演化:
二、Flink架构
Flink1.X的架构包括各种组件,比如deploy,core processing和APIs。下图展示了各种组件:
Flink具有分层结构,其中每个组件是特定层的一部分。每层建立在其他的顶部,用于清晰的抽象。Flink被设计为可以在local、yarn以及cloud上运行。Runtime是Flink的核心数据处理引擎,通过以JobGraph形式的APIs接收program,JobGraph是一个简单的并行数据流。
DataStrame和DataSet API是程序员可以用来定义Job的接口。在编译程序时,这些API会生成JobGraph。一但编译后,DataSet API允许优化器生成最佳执行计划。然后根据部署模型将优化的JobGraph提交给执