Flink 简介

Flink 中的特点

时间驱动(Event-driven)

流批一体

基于流的世界观:在Flink 的世界观中,一切都是由流组成的,离线数据是有界的流;实时数据是一个没有界限的流:这就是所谓的有界流和无界流

支持带有事件时间的窗口 (Window) 操作

支持有状态计算的 Exactly-once[ɪɡˈzæktli wʌns] 语义

  • 1.flink的checkpoint特性,Flink 检查点算法(Chandy-Lamport 算法的变种)
  • 2.是两阶段提交

Spark Streaming和Flink的区别

数据模型

  • Spark 采用RDD 模型,Spark Streaming 的DStream 实际上也就是一组组小批数据RDD 的集合
  • Flink 基本数据模型是数据流,以及事件(Event)序列(Integer、String、Long、POJO Class)

运行时架构

  • Spark 是批计算,将DAG 划分为不同的Stage,一个Stage完成后才可以计算下一个Stage
  • Flink 是标准的流执行模式,一个事件在一个节点处理完后可以直接发往下一个节点进行处理

Flink 运行时的组件

Flink 运行时由两种类型的进程组成:一个JobManager 和一个或者多个TaskManager。

当JobManager 申请插槽资源时,Flink 的资源管理器会将有空闲插槽的TaskManager 分配给JobManager。

程序与数据流(DataFlow)

所有的Flink 程序都是由三部分组成的:Source、Transformation 和Sink。

  • Source 负责读取数据源,Transformation 利用各种算子进行处理加工,Sink 负责输出。

并行度(Parallelism)

One-to-one:stream 维护着分区以及元素的顺序(比如source 和map 之间)。这意味着map 算子的子任务看到的元素的个数以及顺序跟source 算子的子任务生产的元素的个数、顺序相同。map、filter、flatMap 等算子都是one-to-one的对应关系。

Redistributing:stream 的分区会发生改变。每一个算子的子任务依据所选择的transformation 发送数据到不同的目标任务。例如,keyBy 基于hashCode 重分区、而broadcast 和rebalance 会随机重新分区,这些算子都会引起redistribute过程,而redistribute 过程就类似于Spark 中的shuffle 过程。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

javafanwk

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值