开源流计算引擎,兼顾性能和可靠性。
Flink数据集类型
有边数据集:最终不再发生改变
无边数据集:不断产生数据
Flink的两种执行模型
a.流计算
数据不断产生,一直处于计算状态
b.批处理
完成一定时间段的计算任务后,释放资源
Flink的特性
a.开源,分布式
b.结果精准,即使是无序数据或者延迟数据
c.有状态以及容错。维护精准一次的应用状态(保持每次计算的结果,向后传递,实现累加。容错:replace,计算错误后恢复)
d.可实现大规模计算,高吞吐、低延迟
f.通过检查点机制实现精准一次的计算保证,在出现故障的时候可以体现
e.flink支持计算以及窗口化操作
g.flink支持灵活的基础时间的窗口计算
h.flink容错是轻量级的,资源占用量少,保证零数据丢失
Flink流计算模型和有界数据集
a.有界数据集是无界数据集的一种特例
b.有界数据集在flink内部是以一种终态数据集进行计算
c.在flink中,有界和无界差距较小
d.使用同一套流计算执行引擎模型上的API操作两种数据类型
Flink启动
flink run -c ${classname} name.jar
默认端口
8081