【Hadoop】Spark集群搭建学习

最新推荐文章于 2025-06-09 21:28:53 发布

原创最新推荐文章于 2025-06-09 21:28:53 发布 · 164 阅读

0 ·

CC 4.0 BY-SA版权

大数据专栏收录该内容

20 篇文章

订阅专栏

本文深入解析了Spark集群的基本框架结构，包括ClusterManager、Master、Worker、Executor和DriverApplication的角色与职责，以及它们之间的交互方式。同时，文章还提供了集群部署规划的示例，并指导如何在spark-env.sh中正确配置HADOOP环境变量。

https://blog.csdn.net/qq_42246689/article/details/86253396

一、Spark基本框架结构

Spark集群由一下部分组成：
Cluster Manager：集群管理器，主要负责资源的分配与管理。他将各个worker上的内存、CPU等资源分配给应用程序，但不对Executor的资源分配负责。目前，Standalone、YARN、Mesos、K8S、EC2等都可以作为Spark的集群管理器。

Master: Spark集群的主节点
Worker: Spark集群的工作节点。由Cluster Manager分配得到资源，主要负责：创建Executor，将资源和任务进一步分配给Executor，同步资源信息给Cluster Manager.
Executor: 执行计算任务的一些进程，主要负责任务的执行以及与Worker、DriverApplication的信息同步。
DriverApplication: 客户端驱动程序（客户端应用程序），用于将任务程序转换为RDD和DAG，并与Cluster Manager进行通信与调度