flink初识
什么是flink
Apache Flink是一个框架和分布式处理引擎,用于对无限制和有限制的数据流进行有状态的计算。Flink被设计为可以在所有常见的集群环境中运行,以内存速度和任何规模执行计算。 --来自官网介绍
flink特点
1.事件驱动
什么是事件驱动??
spark streaming是微批次,每隔一段时间触发一次。如果数据源是kafka,就算一段时间没有数据,spark streaming也会按照设定的时间间隔触发操作。
事件驱动,是根据源头来一条计算一条,当没有数据时,就停了。
总结:spark是根据时间驱动的,flink是事件驱动的
2.流处理
flink与spark之间对待数据的世界观是不同的
在spark世界观中,一切都是由批次组成的,离线数据是个大批次,实时数据是由无限小批次组成
在flink世界观中,一切都是由流组成,离线数据是有界限的流、实时数据是无界限的流
无界流
数据有开始没有结束
有界流
有界流(bounded stream): 数据有开始和结束