【Hadoop】Spark集群搭建学习

本文深入解析了Spark集群的基本框架结构,包括ClusterManager、Master、Worker、Executor和DriverApplication的角色与职责,以及它们之间的交互方式。同时,文章还提供了集群部署规划的示例,并指导如何在spark-env.sh中正确配置HADOOP环境变量。

https://blog.csdn.net/qq_42246689/article/details/86253396

一、Spark基本框架结构

Spark集群由一下部分组成:
Cluster Manager:集群管理器,主要负责资源的分配与管理。他将各个worker上的内存、CPU等资源分配给应用程序,但不对Executor的资源分配负责。目前,Standalone、YARN、Mesos、K8S、EC2等都可以作为Spark的集群管理器。

  • Master: Spark集群的主节点
  • Worker: Spark集群的工作节点。由Cluster Manager分配得到资源,主要负责:创建Executor,将资源和任务进一步分配给Executor,同步资源信息给Cluster Manager.
  • Executor: 执行计算任务的一些进程,主要负责任务的执行以及与Worker、DriverApplication的信息同步。
  • DriverApplication: 客户端驱动程序(客户端应用程序),用于将任务程序转换为RDD和DAG,并与Cluster Manager进行通信与调度
    在这里插入图片描述
    在这里插入图片描述

二、集群部署规划

节点spark 角色
MasterMaster
Slave1Worker
Slave2Worker

三、搭建环境

参考 http://dblab.xmu.edu.cn/blog/1187-2/
*spark-env.sh中环境变量的配置要换成自己的HADOOP安装目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值