Flink（一）：简介

最新推荐文章于 2024-07-14 14:20:11 发布

码农_程序员

最新推荐文章于 2024-07-14 14:20:11 发布

阅读量1k

点赞数 1

分类专栏： Flink入门文章标签： flink 大数据 big data

本文链接：https://blog.csdn.net/congcong68/article/details/122159280

版权

Flink入门专栏收录该内容

21 篇文章 9 订阅

订阅专栏

一、简介

二、 API 分层简介

三、结构简介

四、TaskManagers（ task slot简介）

五、内存简介

一、简介

Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。

无边界：有定义流的开始，但没有定义流的结束（我们不用等到所有数据都到达再处理，因为输入是无限的，数据源例如kafka，源源不断的读取数据，并进行不断处理）
有边界：有定义流的开始，也有定义流的结束（有界流可以在摄取所有数据后再进行计算，数据源可以是文件等，可以称为批处理）

Apache Flink 是一个分布式系统，它需要计算资源来执行应用程序。Flink 集成了所有常见的集群资源管理器，例如Hadoop YARN、Apache Mesos和Kubernetes，但同时也可以作为独立集群运行。Apache Flink 充分利用无尽的 CPU、内存、磁盘和网络 IO，并保证精确一次状态的一致性。

二、 API 分层简介

Flink 为流式/批式处理应用程序的开发提供了不同级别的抽象。

Flink API 最底层的抽象为有状态实时流处理：其抽象实现是 Process Function，并且 Process Function 被 Flink 框架集成到了 DataStream API 中来为我们使用。它允许用户在应用程序中自由地处理来自单流或多流的事件（数据），并提供具有全局一致性和容错保障的状态。
Flink API 第二层抽象是 Core API：Core API 提供的流式 API（Fluent API）为数据处理提供了通用的模块组件，例如各种形式的用户自定义转换（transformations）、联接（joins）、聚合（aggregations）、窗口（windows）和状态（state）操作等。
Flink API 第三层抽象是 Table API：Table API 是以表（Table）为中心的声明式编程（DSL）API。Table API 遵循（扩展）关系模型：即表拥有 schema（类似于关系型数据库中的 schema），并且 Table API 也提供了类似于关系模型中的操作，比如 select、project、join、group-by 和 aggregate 等。
Flink API 最顶层抽象是 SQL：这层抽象在语义和程序表达式上都类似于 Table API，但是其程序实现都是 SQL 查询表达式。 SQL 查询语句可以在 Table API 中定义的表上执行

三、结构简介

Flink 运行时由两种类型的进程组成：一个 JobManager 和一个或者多个 TaskManager。

JobManager
JobManager 具有许多与协调 Flink 应用程序的分布式执行有关的职责：它决定何时调度下一个 task（或一组 task）、对完成的 task 或执行失败做出反应、协调 checkpoint、并且协调从失败中恢复等等。这个进程由三个不同的组件组成：

ResourceManager : ResourceManager 负责 Flink 集群中的资源提供、回收、分配 - 它管理 task slots，。Flink 为不同的环境和资源提供者（例如 YARN、Kubernetes 和 standalone 部署）实现了对应的 ResourceManager。在 standalone 设置中，ResourceManager 只能分配可用 TaskManager 的 slots，而不能自行启动新的 TaskManager。
Dispatcher：Dispatcher 提供了一个 REST 接口，用来提交 Flink 应用程序执行，并为每个提交的作业启动一个新的 JobMaster。它还运行 Flink WebUI 用来提供作业执行信息。
JobMaster：JobMaster 负责管理单个JobGraph的执行。Flink 集群中可以同时运行多个作业，每个作业都有自己的 JobMaster。始终至少有一个 JobManager。高可用（HA）设置中可能有多个 JobManager，其中一个始终是 leader，其他的则是 standby。

TaskManagers
TaskManager（也称为 worker）执行作业流的 task，并且缓存和交换数据流。必须始终至少有一个 TaskManager。在 TaskManager 中资源调度的最小单位是 task slot。TaskManager 中 task slot 的数量表示并发处理 task 的数量。请注意一个 task slot 中可以执行多个算子（请参考Tasks 和算子链）。

四、TaskManagers（ task slot简介）

1、Tasks 和算子链

对于分布式执行，Flink 将算子的 subtasks 链接成 tasks。每个 task 由一个线程执行。将算子链接成 task 是个有用的优化：它减少线程间切换、缓冲的开销，并且减少延迟的同时增加整体吞吐量。链行为是可以配置的

下图中样例数据流用 5 个 subtask 执行，因此有 5 个并行线程。

2、Task Slots 和资源

每个 worker（TaskManager）都是一个 JVM 进程，可以在单独的线程中执行一个或多个 subtask。例如，具有 3 个 slot 的 TaskManager，会将其托管内存 1/3 用于每个 slot。分配资源意味着 subtask 不会与其他作业的 subtask 竞争托管内存，而是具有一定数量的保留托管内存。注意此处没有 CPU 隔离；当前 slot 仅分离 task 的托管内存。

通过调整 task slot 的数量，用户可以定义 subtask 如何互相隔离。每个 TaskManager 有一个 slot，这意味着每个 task 组都在单独的 JVM 中运行（例如，可以在单独的容器中启动）。具有多个 slot 意味着更多 subtask 共享同一 JVM。同一 JVM 中的 task 共享 TCP 连接（通过多路复用）和心跳信息。它们还可以共享数据集和数据结构，从而减少了每个 task 的开销。

默认情况下，Flink 允许 subtask 共享 slot，即便它们是不同的 task 的 subtask，只要是来自于同一作业即可。允许 slot 共享有两个主要优点：

Flink 集群所需的 task slot 和作业中使用的最大并行度恰好一样。无需计算程序总共包含多少个 task（具有不同并行度）。
容易获得更好的资源利用。如果没有 slot 共享，非密集 subtask（source/map()）将阻塞和密集型 subtask 一样多的资源。通过 slot 共享，我们示例中的基本并行度从 2 增加到 6，可以充分利用分配的资源，同时确保繁重的 subtask 在 TaskManager 之间公平分配。

五、内存简介

有状态的 Flink 程序针对本地状态访问进行了优化。任务的状态始终保留在内存中，如果状态大小超过可用内存，则会保存在能高效访问的磁盘数据结构中。任务通过访问本地（通常在内存中）状态来进行所有的计算，从而产生非常低的处理延迟。Flink 通过定期和异步地对本地状态进行持久化存储来保证故障场景下精确一次的状态一致性。

码农_程序员

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Flink（一）：简介

一、简介 Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。无边界：有定义流的开始，但没有定义流的结束（我们不用等到所有数据都到达再处理，因为输入是无限的，数据源例如kafka，源源不断的读取数据，并进行不断处理）有边界：有定义流的开始，也有定义流的结束（有界流可以在摄取所有数据后再进行计算，数据源可以是文件等，可以称为批处理） Apache Flink 是一个分布式系统，它需要计算资源来执行应用程序。Fl...
复制链接

扫一扫