Flink 快速入门

最新推荐文章于 2024-06-21 10:00:04 发布

magicpenta

最新推荐文章于 2024-06-21 10:00:04 发布

阅读量471

点赞数

分类专栏：大数据文章标签：大数据 flink

本文链接：https://blog.csdn.net/magicpenta/article/details/118725690

版权

什么是 Flink

Apache Flink 是一个分布式计算框架，它能够对有界和无界的数据流进行高效的处理。

在官方的介绍中，Flink 具有以下优势：

Deploy Applications Anywhere：Flink 集成了所有常见的集群资源管理器，例如 Hadoop YARN、Apache Mesos 和 Kubernetes，也可以设置为作为独立集群运行
Run Applications at any Scale：Flink 的设计目标就是为了支撑任意规模、有状态流应用程序的运行，应用程序被并行化为分布式集群中的数千个任务，因此，可以利用几乎无限量的 CPU、主内存、磁盘和网络 IO
Leverage In-Memory Performance：在 Flink 中，任务状态始终保存在内存中，因此，任务通过访问本地的状态（通常在内存中）来执行所有计算，从而产生非常低的处理延迟

综合所有方面来看，Flink 具有以下特点：

指标/框架	Flink	Spark	Storm	Storm-Trident
处理模型	Native	Micro-Batch	Native	Micro-Batch
处理语义	Exactly-Once	Exactly-Once	At-Least-Once	Exactly-Once
容错	CheckPoint	CheckPoint	Ack	Ack
吞吐量	High	High	Low	Medium
延迟	Low	High	High	Very Low

Flink 的架构与大数据中常见的分布式架构（如 HDFS、HBase、Spark 等）相似，都遵循主从模式。

下图为官方提供的 Flink 架构图：

图中蓝色部分为 Flink 核心组件：

组件名	组件职责	实现
Flink Client	Flink 客户端，可以将作业提交给 JobManager	Command Line Interface、REST Endpoint、SQL Client、Python REPL、Scala REPL
JobManager	Flink 的中心协调组件	Standalone、Kubernetes、YARN、Mesos
TaskManager	执行 Flink 作业的进程

橙色部分为外部支撑组件：

组件名	组件职责	实现
High Availability Service Provider	高可用性服务提供商，支撑 JobManager 运行在高可用模式下	Zookeeper、Kubernetes HA
File Storage and Persistency	外部文件系统（用于支撑 checkpoint 等功能）	HDFS、Alluxio、阿里云 OSS
Resource Provider	资源提供者	Yarn、Mesos、Kubernetes
Metrics Storage	Flink 指标模块，用于暴露运行时指标	JMX、InfluxDB、Prometheus

概念	说明
Task	一个阶段多个功能相同 subTask 的集合，类似于 Spark 中的 TaskSet。
SubTask	Flink 中任务最小执行单元，是一个 Java 类的实例，这个 Java 类中有属性和方法，完成具体的计算逻辑。
Slot	Flink 中计算资源进行隔离的单元，一个 Slot 中可以运行多个 subTask，但是这些 subTask 必须是来自同一个 application 的不同阶段的 subTask。
State	Flink 在运行过程中计算的中间结果。
Source	Flink 作业的数据源，可以是本地文件、Socket、Kafka 等。
Transformation	负责数据处理的算子&#

关注

专栏目录