学习视频b站地址:
地址
flink定义
是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算
发展时间线:
2014年8月,Flink第一个版本0.6正式发布,与此同时Fink的几位核心
开发者创办了Data Artisans 公司;
2014年12月,Flink项目完成孵化;
2015年4月,Flink发布了里程碑式的重要版本0.9.0
2019年1月,长期对Flink投入研发的阿里巴巴,以9000万欧元的价格
收购了Data Artisans 公司;
2019年8月,阿里巴巴将内部版本Blink开源,合并入Flink 1.9.0版本。
flink应用场景:
为什么学习flink:
批处理和流处理
流数据更真实地反映了我们的生活方式
我们的目标: 低延迟、高吞吐、 结果的准确性和良好的容错性
核心特点:
>高吞吐,低延迟
>结果的准确性
>精确一次(exactly-once)的状态一致性保证
> 可以与众多常用存储系统连接
>高可用,支持动态扩展
分层Api:
flink vs spark
-
数据模型
spark 采用 RDD 模型,spark streaming 的 DStream 实际上也就是一组 组小批数
据 RDD 的集合
flink 基本数据模型是数据流,以及事件(Event)序列 -
运行时架构
spark 是批计算,将 DAG 划分为不同的 stage,一个完成后才可以计算下一个
flink 是标准的流执行模式,一个事件在一个节点处理完后可以直接发往下一个节
点进行处理