大数据Flink（六十四）：Flink运行时架构介绍_flink中涉及到的大数据组件

最新推荐文章于 2024-11-14 09:21:17 发布

2401_84181942

最新推荐文章于 2024-11-14 09:21:17 发布

阅读量810

点赞数 20

分类专栏：程序员文章标签：大数据 flink 架构

本文链接：https://blog.csdn.net/2401_84181942/article/details/138430682

版权

本文介绍了Flink的分布式运行时架构，包括两大组件：作业管理器（JobManager）和任务管理器（TaskManager）。JobManager作为任务调度的核心，由JobMaster和ResourceManager组成，负责作业管理和资源分配。TaskManager执行任务，与JobManager建立连接。在高可用设置下，JobManager可能有多个，其中一个是领导者。Flink可以独立部署，也可以与YARN、Kubernetes等资源管理器集成。

摘要由CSDN通过智能技术生成

于是人们提出了“不共享任何东西”（share-nothing）的分布式架构。从以 Greenplum 为代表的 MPP（Massively Parallel Processing，大规模并行处理）架构，到 Hadoop、Spark 为代表的批处理架构，再到 Storm、Flink 为代表的流处理架构，都是以分布式作为系统架构的基本形态的。

我们已经知道，Flink 就是一个分布式的并行流处理系统。简单来说，它会由多个进程构成，这些进程一般会分布运行在不同的机器上。

正如一个团队，人多了就会难以管理；对于一个分布式系统来说，也需要面对很多棘手的问题。其中的核心问题有：集群中资源的分配和管理、进程协调调度、持久化和高可用的数据存储，以及故障恢复。

对于这些分布式系统的经典问题，业内已有比较成熟的解决方案和服务。所以 Flink 并不会自己去处理所有的问题，而是利用了现有的集群架构和服务，这样它就可以把精力集中在核心工作——分布式数据流处理上了。Flink 可以配置为独立（Standalone）集群运行，也可以方便地跟一些集群资源管理工具集成使用，比如 YARN、Kubernetes。Flink 也不会自己去提供持久化的分布式存储，而是直接利用了已有的分布式文件系统（比如 HDFS）或者对象存储（比如 S3）。而对于高可用的配置，Flink 是依靠 Apache ZooKeeper 来完成的。

我们所要重点了解的，就是在 Flink 中有哪些组件、是怎样具体实现一个分布式流处理系统的。如果大家对 Spark 或者 Storm 比较熟悉，那么稍后就会发现，Flink 其实有类似的概念和架构。