Flink核心概念

最新推荐文章于 2024-08-26 16:53:04 发布

toy2048

最新推荐文章于 2024-08-26 16:53:04 发布

阅读量844

点赞数 28

分类专栏： Flink 文章标签： flink 大数据

本文链接：https://blog.csdn.net/qiangzhe999/article/details/138212856

版权

Flink 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

并行度(Parallelism)

并行子任务(subtasks)：当要处理的数据量非常大时，一个算子任务拆分成多个并行的子任务，将它们分发到不同节点，实现并行计算。这些子任务在不同的线程、不同的物理机或不同的容器中完全独立地执行。包含并行子任务的数据流，就是并行数据流，它需要多个分区(stream partition)来分配并行任务。

并行度(parallelism)：一个特定算子的子任务(subtask)个数。

一个流程序的并行度：即所有算子中最大的并行度。不同的算子可能具有不同的并行度。

并行度的设置：优先级：代码>env>提交时>配置文件。

1代码中设置：stream.map(word -> Tuple2.of(word, 1L)).setParallelism(2); 只针对当前算子有效。

一般不在程序中设置全局并行度env.setParallelism(2)，会导致无法动态扩容。

2 提交应用时设置：类似于执行环境的全局设置，bin/flink run –p 2 xxx

3 配置文件设置：flink-conf.yaml修改默认并行度：parallelism.default: 2

算子链(Operator Chain)

一个数据流在算子之间传输数据的形式：

1 一对一(One-to-one，forwarding)：数据流的分区、元素的顺序不变，类似Spark中的窄依赖。source算子读取数据之后，可以直接发送给map算子做处理，它们之间不需要重新分区，也不需要调整数据的顺序。同理map、filter、flatMap等算子，

2 重分区(Redistributing)：数据流的分区会发生改变，类似于Spark 中的shuffle。每一个算子的子任务，会根据数据传输的策略，把数据发送到不同的下游目标任务。如map和keyBy之间、keyBy和Sink之间。

合并算子链Operator Chain：并行度相同的一对一算子操作，可以直接链接在一起形成一个大任务(task)。如下图所示，Source和map直接合并在一起，形成了一个任务；最终只有5个task(虚线框)，每个task会被一个线程执行。

好处：可以减少线程之间的切换和基于缓存区的数据交换，在减少时延的同时提升吞吐量。

Flink默认进行链接合并，可修改如下：

.map(word -> Tuple2.of(word, 1L)).disableChaining(); // 禁用算子链

.map(word -> Tuple2.of(word, 1L)).startNewChain(); // 从当前算子开始新链

任务槽(Task Slots)

任务槽(TaskSlots)：Flink中每个TaskManager都是一个JVM进程，可以启动多个独立的线程，并行执行多个子任务(subtask)。但TaskManager计算资源是有限的，为了控制并发量，需要在TaskManager上对每个任务运行所占用的资源做出明确的划分，即任务槽(taskslots)。

每个任务槽(taskslot)表示了TaskManager拥有计算资源的一个固定大小的子集。

假设一个TaskManager有三个slot，那么它会将管理的内存平均分成三份，每个slot独自占据一份，专款专用，独立执行子任务，不用竞争。

slot目前仅隔离内存，但共享CPU。开发环境默认并行度=机器CPU数量，避免不同任务对CPU的竞争。