Flink 简介

javafanwk

已于 2022-01-21 17:45:57 修改

阅读量692

点赞数

分类专栏： Flink 大数据文章标签： flink big data spark

于 2022-01-21 16:44:32 首次发布

本文链接：https://blog.csdn.net/fwk19840301/article/details/122590379

版权

大数据同时被 2 个专栏收录

19 篇文章 2 订阅

订阅专栏

Flink

4 篇文章 0 订阅

订阅专栏

Flink 中的特点

时间驱动（Event-driven）

流批一体

基于流的世界观：在Flink 的世界观中，一切都是由流组成的，离线数据是有界的流；实时数据是一个没有界限的流：这就是所谓的有界流和无界流

支持带有事件时间的窗口（Window）操作

支持有状态计算的 Exactly-once[ɪɡˈzæktli wʌns] 语义

1.flink的checkpoint特性，Flink 检查点算法（Chandy-Lamport 算法的变种）
2.是两阶段提交

Spark Streaming和Flink的区别

数据模型

Spark 采用RDD 模型，Spark Streaming 的DStream 实际上也就是一组组小批数据RDD 的集合
Flink 基本数据模型是数据流，以及事件（Event）序列（Integer、String、Long、POJO Class）

运行时架构

Spark 是批计算，将DAG 划分为不同的Stage，一个Stage完成后才可以计算下一个Stage
Flink 是标准的流执行模式，一个事件在一个节点处理完后可以直接发往下一个节点进行处理

Flink 运行时的组件

Flink 运行时由两种类型的进程组成：一个JobManager 和一个或者多个TaskManager。

当JobManager 申请插槽资源时，Flink 的资源管理器会将有空闲插槽的TaskManager 分配给JobManager。

程序与数据流(DataFlow)

所有的Flink 程序都是由三部分组成的：Source、Transformation 和Sink。

Source 负责读取数据源，Transformation 利用各种算子进行处理加工，Sink 负责输出。

并行度(Parallelism)

One-to-one：stream 维护着分区以及元素的顺序（比如source 和map 之间）。这意味着map 算子的子任务看到的元素的个数以及顺序跟source 算子的子任务生产的元素的个数、顺序相同。map、filter、flatMap 等算子都是one-to-one的对应关系。

Redistributing：stream 的分区会发生改变。每一个算子的子任务依据所选择的transformation 发送数据到不同的目标任务。例如，keyBy 基于hashCode 重分区、而broadcast 和rebalance 会随机重新分区，这些算子都会引起redistribute过程，而redistribute 过程就类似于Spark 中的shuffle 过程。

javafanwk

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Flink 简介

Flink 中的特点时间驱动（Event-driven）流批一体基于流的世界观：在Flink 的世界观中，一切都是由流组成的，离线数据是有界的流；实时数据是一个没有界限的流：这就是所谓的有界流和无界流Spark Streaming和Flink的区别数据模型Spark 采用RDD 模型，Spark Streaming 的DStream 实际上也就是一组组小批数据RDD 的集合 Flink 基本数据模型是数据流，以及事件（Event）序列（Integer、String、Long
复制链接

扫一扫