Flink基础

flink名词解释

1、有限数据流即数据已经产生,数据大小已经确定,数据有限,可以做离线计算。
2、无线数据流即数据一旦产生,不知道什么时候结束,比如数据写入kafka,数据无限,可以做实时计算。
3、Task(任务) Task是一个阶段多个功能相同的subTask的集合,类似于spark中的Taskset。
4、**subTask(子任务)**subTask是flink任务中最小执行单元,是一个java类的实例,有属性和方法,完成具体的计算逻辑。
5、**Operator Chains(算子链)**没有Shuffer的多个算子合并在一个subTask中,就形成了Operator Chains,类似于spark的pipeline。
6、**slot(插槽)**flink中计算资源进行隔离的单元,一个slot中可以运行多个subTask,但是这些subTask必须是来自同一个application的不同阶段的subTask。

Flink架构体系介绍

Flink真正用来做执行操作的,叫做Worker,进程在不同的环境模式下运行,如:使用Standalone集群模式启动,JobManager叫StandaloneSessionClusterEntrypoint,TaskManager叫TaskManagerRunner,使用yarn模式启动,进程又有所不同。

JobManager介绍:

JobManager也称之为Master,用于协调分布式执行,它用来调度task,协调检查点,协调失败时恢复等,Flink运行时至少存在一个Master,如果配置高可用模式,则会有多个Master,它们其中有一个是Lender,其他的都是Standby。

TaskManager介绍:

也称之为Worker,用于执行一个dataflow的Task,数据缓冲和DataStream的数据交换,Flink运行时至少存在一个Worker,TaskManager和JobManager可以直接运行在物理机上,或者运行在Yarn这样的资源调度框架上,TaskManager通过网络连接到JobManager,通过RPC通信告知自身的可用性进而获得任务分配。

Flink架构流程介绍 解释一:

TaskManager相当于给task提供执行环境,JobManager相当于主节点,TaskManager相当于从节点,JobManager用来负责管理,TaskManager用来执行具体task,他们之间也要通过网络进行RPC通信,RPC通信底层是Akka,我们还会用一个客户端,客户端用来提交任务。

客户端提交任务,首先会与JobManager进行通信,我们在本地写程序,程序会构建成一个类似spark的DAG(在flink中叫DATAFlow graph),将dataflow graph提交到JobManager,JobManager会将dataflow graph切分成多个task,将Task调度到TaskManager中执行。

使用客户端提交任务:

  1. 使用命令行提交
  2. 使用web界面提交

Flink架构流程介绍 解释二

了解大数据实时计算

1、Program Code:我们编写的 Flink 应用程序代码

2、Job Client:Job Client 不是 Flink 程序执行的内部部分,但它是任务执行的起点。Job Client 负责接受用户的程序代码,然后创建数据流,将数据流提交给 Job Manager 以便进一步执行。执行完成后,Job Client 将结果返回给用户

3、Job Manager:主进程(也称为作业管理器)协调和管理程序的执行。它的主要职责包括安排任务,管理 checkpoint ,故障恢复等。机器集群中至少要有一个 master,master 负责调度 task,协调 checkpoints 和容灾,高可用设置的话可以有多个 master,但要保证一个是 leader, 其他是 standby; Job Manager 包含 Actor system、Scheduler、Check pointing 三个重要的组件

4、Task Manager:从 Job Manager 处接收需要部署的 Task。Task Manager 是在 JVM 中的一个或多个线程中执行任务的工作节点。任务执行的并行性由每个 Task Manager 上可用的任务槽(Slot 个数)决定。每个任务代表分配给任务槽的一组资源。例如,如果 Task Manager 有四个插槽,那么它将为每个插槽分配 25% 的内存。可以在任务槽中运行一个或多个线程。同一插槽中的线程共享相同的 JVM。

同一 JVM 中的任务共享 TCP 连接和心跳消息。Task Manager 的一个 Slot 代表一个可用线程,该线程具有固定的内存,注意 Slot 只对内存隔离,没有对 CPU 隔离。默认情况下,Flink 允许子任务共享 Slot,即使它们是不同 task 的 subtask,只要它们来自相同的 job。这种共享可以有更好的资源利用率。
Flink到底能不能实现exactly-once语义

Flink时间与窗口

谈谈flink内存管理

谈谈Flink DataStream流计算中的优化(持续更新)

Flink状态管理和容错机制介绍

Flink 源码解析

Flink作业重启后,如何保证不丢失数据?

Flink学习

Flink教程

Flink基础版本1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值