一、部署层
Flink支持本地(Local)模式、集群(Cluster)模式等
二、执行引擎层
执行引擎层是核心API的底层实现,位于最低层。执行引擎层提供了支持Flink计算的全部核心实现
一、执行引擎层的主要功能
- 支持分布式流处理
- 从作业图(JobGraph)到执行图(ExecutionGraph)的映射、调度等
- 为上层的API层提供基础服务
- 构建新的组件或算子
二、执行引擎层的特点
- 灵活性高,但开发比较复杂
- 表达性强,可以操作状态、Time等
三、核心API层
核心API层主要对无界数据流和有界数据流进行处理,包括DataStream API和DataSet API,以及实现了更加抽闲但是表现力稍差的Table API、SQL
- DataStream API:用于处理无界数据流,或者以流处理方式来处理有界数据流
- DataSet API:用于对有界数据进行处理。用户可以非常方便地使用Flink提供的各种算子对分布式数据集进行处理。DataStream API和DataSet API是流处理应用程序和批处理应用程序的接口,程序在编译时生成作业图。在编译完成之后,Flink的优化器会生成不同的执行计划。根据部署方式的不同,优化之后的作业图将被提交给执行器执行。
- Table API、SQL:用于对结构化数据进行查询,将结构化数据抽象成关系表,然后通过其提供的类SQL语言的DSL对关系表进行各种查询
四、领域库层
Flink还提供了用于特定领域的库,这些库通常被嵌入在API中,但不完全独立于API。这些库也因此可以继承API的所有特性,并与其他库集成
在API层之上构建的满足特定应用的实现计算框架(库),分别对应ing面向流处理和面向批处理这两类
- 面向流处理支持:CEP(复杂时间处理)、基于SQL-like的操作(基于Table的关系操作)。
- 面向批处理支持:FlinkML(机器学习库)、Alink(新开源的机器学习库)、Gelly(图计算)