【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用006-Slot和Parallelism的深入分析001

183 篇文章 0 订阅
86 篇文章 57 订阅

一、flink架构

这里写图片描述

1.flink是一个主从结构的分布式程序,它由client和cluster两部分组成。

2.cluster由主节点JobManager(JM)和从节点TaskManager组成(TM)。
    a.JM负责协调分布式执行:调度Task、协调检查点、协调失效恢复等工作。
      JM至少要有一个,也可有多个。多个JM可基于zookeeper做HA,一个active,其余standby。
    b.TM负责执行一个具体的Dataflow的Task,缓存并交换streams等工作。
      TM至少要有一个,也可有多个,多个TM组成worker集群,并发执行任务。
    c.JM和TM有多种部署方式,可以选择使用裸机部署,使用container部署,使用yarn部署。
      只要JM和TM能通信即可,这样JM就能下发任务到TM,TM也能执行任务并上报TM.

3.client属于flink架构的一部分,但不属于flink集群。它的工作是连接user和cluster.
    a.client能够将user提交的application分析成Dataflow提交给JM.JM会分配给TM做具体的执行工作。
      在提交完Dataflow可以关闭,也可以不关闭.
    b.client不关闭的话还可以接受cluster处理进度报告,以便user能跟着任务的运行情况。

二、程序(Progrram)和数据流(Dataflows)

1.程序(Progrram)

这里写图片描述

1.Progrram是user通过java,scala,python等编程语言调用flink相应的api编写而成。
2.Program中用户将data从source通过一系列的Transformation处理成期望的结果,然后sink到外部系统。
3.一般来说Transformation中都有一个Operator,但有时一个Transformation也可包括了多个Operator

2.数据流(Dataflows)

这里写图片描述

1.program经过client解析形成Dataflow
2.在Dataflow中主要包括Streams和Transformations两个概念。
  a.Transformations是指对数据的转化操作。
  a.Stream是指数据转化过程中的中间结果。
3.将Transformation做点,Stream做边可把Dataflow映射成一个有向无环图(DAG)。
  在执行程序的过程中可以根据程序的DAG做计算优化,可以合并或省略一些中间步骤。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值