https://blog.csdn.net/qq_42246689/article/details/86253396
一、Spark基本框架结构
Spark集群由一下部分组成:
Cluster Manager:集群管理器,主要负责资源的分配与管理。他将各个worker上的内存、CPU等资源分配给应用程序,但不对Executor的资源分配负责。目前,Standalone、YARN、Mesos、K8S、EC2等都可以作为Spark的集群管理器。
- Master: Spark集群的主节点
- Worker: Spark集群的工作节点。由Cluster Manager分配得到资源,主要负责:创建Executor,将资源和任务进一步分配给Executor,同步资源信息给Cluster Manager.
- Executor: 执行计算任务的一些进程,主要负责任务的执行以及与Worker、DriverApplication的信息同步。
- DriverApplication: 客户端驱动程序(客户端应用程序),用于将任务程序转换为RDD和DAG,并与Cluster Manager进行通信与调度


二、集群部署规划
| 节点 | spark 角色 |
|---|---|
| Master | Master |
| Slave1 | Worker |
| Slave2 | Worker |
三、搭建环境
参考 http://dblab.xmu.edu.cn/blog/1187-2/
*spark-env.sh中环境变量的配置要换成自己的HADOOP安装目录
本文深入解析了Spark集群的基本框架结构,包括ClusterManager、Master、Worker、Executor和DriverApplication的角色与职责,以及它们之间的交互方式。同时,文章还提供了集群部署规划的示例,并指导如何在spark-env.sh中正确配置HADOOP环境变量。
799

被折叠的 条评论
为什么被折叠?



