Flink 中的特点
时间驱动(Event-driven)
流批一体
基于流的世界观:在Flink 的世界观中,一切都是由流组成的,离线数据是有界的流;实时数据是一个没有界限的流:这就是所谓的有界流和无界流
支持带有事件时间的窗口 (Window) 操作
支持有状态计算的 Exactly-once[ɪɡˈzæktli wʌns] 语义
- 1.flink的checkpoint特性,Flink 检查点算法(Chandy-Lamport 算法的变种)
- 2.是两阶段提交
Spark Streaming和Flink的区别
数据模型
- Spark 采用RDD 模型,Spark Streaming 的DStream 实际上也就是一组组小批数据RDD 的集合
- Flink 基本数据模型是数据流,以及事件(Event)序列(Integer、String、Long、POJO Class)
运行时架构
- Spark 是批计算,将DAG 划分为不同的Stage,一个Stage完成后才可以计算下一个Stage
- Flink 是标准的流执行模式,一个事件在一个节点处理完后可以直接发往下一个节点进行处理
Flink 运行时的组件
Flink 运行时由两种类型的进程组成:一个JobManager 和一个或者多个TaskManager。
当JobManager 申请插槽资源时,Flink 的资源管理器会将有空闲插槽的TaskManager 分配给JobManager。
程序与数据流(DataFlow)
所有的Flink 程序都是由三部分组成的:Source、Transformation 和Sink。
- Source 负责读取数据源,Transformation 利用各种算子进行处理加工,Sink 负责输出。
并行度(Parallelism)
One-to-one:stream 维护着分区以及元素的顺序(比如source 和map 之间)。这意味着map 算子的子任务看到的元素的个数以及顺序跟source 算子的子任务生产的元素的个数、顺序相同。map、filter、flatMap 等算子都是one-to-one的对应关系。
Redistributing:stream 的分区会发生改变。每一个算子的子任务依据所选择的transformation 发送数据到不同的目标任务。例如,keyBy 基于hashCode 重分区、而broadcast 和rebalance 会随机重新分区,这些算子都会引起redistribute过程,而redistribute 过程就类似于Spark 中的shuffle 过程。