Flink教程

Flink是处理unbounded和bounded data的分布式的计算引擎,擅长batch和stream的处理方式(spark更擅长batch的方式,spark streaming的本质也是微批的处理方式,所以实时性spark比flink要差一些),具有内存计算的速度,可以部署Yarn,Mesos集群上。

Flink的特性

  • batch & stream process
  • state management
  • event-time
  • exactly-once consistency guarantees for state

Unbounded & Bounded data

先上图:
这里写图片描述

  • unbounded data
    无界数据,只定义了开始没有定义结束,数据就像长江的流水一样源源不断的注入大海。所以对于吃入的数据必须迅速的处理,不能等到所有的数据收集完再处理(当然也收集不完)。处理无界数据必须要有一定的顺序,比如数据产生的时间等。
  • bounded data
    有界数据,定义了开始和结束。往往是已经存在的数据集,比如在数据库中存储的数据。处理数据时没有必要按照顺序读入。可以用批处理的方式处理。

部署模式

是计算引擎就需要计算资源(CPU,内存),Flink 可以与Hadoop Yarn, Apache Mesos, Kubernetes等资源管理的集群集成,也可以使用standalone模式。当运行一个Flink应用时,Flink会自动计算应用所需要的并行度和需要的内存资源,并向Resource Manager申请资源,如果申请失败则会重新申请。

  • Hadoop Yarn
  • Apache Mesos
  • Kubernetes
  • Standalone

运行规模

  • 多个task并行执行;
  • 使用异步和递增的checkpoint机制保存应用的运行状态;
  • 在最小程序影响处理量的基础上确保exactly-once语意;
  • 运行时如果内存存不下task的state时,会保存在磁盘上,如下图:
    这里写图片描述

    Application types

    • Event-driven Applications
    • Data Analytics Applications
    • Data Pipeline Applications
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值