1. What is Apache Flink?
Apache Flink 是一款用来进行分布式流数据和批数据处理的开源平台。Apache Flink 是一个对有界数据流和无界数据流进行有状态计算的框架和分布式处理引擎。Flink 被设计用于在所有常见的集群环境中运行,以内存中的速度和任意规模进行计算。
重要的概念:
进行有界和无界数据的处理
所有类型的数据都作为一个事件流被生产出来。信用卡流水,监测器数据,日志文件,或者是用户与网站或者是手机 App 的交互,所有的这些数据都是以流的形式产生。
- 无界流:有一个起始点,但不知何时结束。
概念
数据流编程模型(Dataflow Programming Model)
Levels of Abstraction (抽象等级)
Flink 为流/批应用开发提供了不同的抽象等级。
最低级别的抽象提供了简单的有状态流,它通过过程函数被嵌入到 DataStream API 中。它允许用户自由地处理一个或多个流中的事件,并且使用一致的容错状态。此外,用户可以注册事件时间,和处理时间回调,允许程序实现复杂的计算。