5.Flink原理初探\角色分工\执行流程图生成\DataFlow,Operator,Partition,Parallelism,SubTask\OperatorChain和Task\任务槽\槽共享

最新推荐文章于 2024-01-07 06:30:00 发布

涂作权的博客

最新推荐文章于 2024-01-07 06:30:00 发布

阅读量276

点赞数

分类专栏： # 黑马贺岁Flink学习笔记文章标签： flink 流程图大数据

本文链接：https://blog.csdn.net/tototuzuoquan/article/details/125647307

版权

黑马贺岁Flink学习笔记专栏收录该内容

23 篇文章 4 订阅

订阅专栏

本文来自：Flink1.12-2021黑马程序员贺岁视频的学习笔记

5.Flink原理初探
5.1.角色分工
5.2.执行流程
5.3.DataFlow
5.3.1.DataFlow、Operator、Partition、Parallelism、SubTask
5.3.2.OperatorChain和Task
5.3.3.TaskSlot和TaskSlotSharing
5.3.3.1.任务槽（TaskSlot）
5.3.3.2.槽共享(Slot Sharing)
5.4.执行流程图生成

5.Flink原理初探

5.1.角色分工

在这里插入图片描述

5.2.执行流程

在这里插入图片描述

5.3.DataFlow

5.3.1.DataFlow、Operator、Partition、Parallelism、SubTask

在这里插入图片描述

A: Dataflow: Flink程序在执行的时候会被映射成一个数据流模型。
B: Operator: 数据流模型中的每一个操作被称为Operator, Operator分为：Source / Transform / Sink
C: Partition: 数据流模型是分布式的和并行的，执行中会形成1~n个分区。
D: Subtask: 多个分区任务可以并行，每一个都是独立运行在一个线程中的，也就是一个Subtask子任务
E: Parallelism: 并行度，就是可以同时真正执行的子任务数/分区数

1.One to One模式：
两个operator用此模式传递的时候，会保持数据的分区数和数据的排序；如上图中的Source1到Map1,它就保留的Source的分区特征，以及分区元素处理的有序性。—类似于Spark中的窄依赖。

2.Redistributing模式：
这种模式会改变数据的分区数；每个一个operator subtask会根据选择transformation把数据发送到不同的目标subtasks，比如keyBy()会通过hashcode重新分配，broadcast()和rebalance()方法会随机重新新分区。–类似于Spark中的宽依赖。