YARN 模式的 Spark 安装配置

YARN模式的Spark介绍

Spark是专为大规模数据处理而设计的快速通用的计算引擎。是美国加州大学伯克利分校的AMP实验室所开源的类Hadoop MapReduce的通用并行框架,可用来构建大型的、低延迟的数据分析应用程序。

在这里插入图片描述

Spark on Yarn 模式就是将Spark应用程序跑在Yarn集群之上,通过Yarn资源调度将executor启动在container中,从而完成driver端分发给executor的各个任务。将Spark作业跑在Yarn上,首先需要启动Yarn集群,然后通过spark-shell 或spark-submit 的方式将作业提交到 Yarn 上运行。

软件版本

VirtualBox 6.1.14
Ubuntu 16.04
Hadoop: 3.1.3
Scala: 2.12.16
Spark: 3.2.1

配置YARN模式的Spark

进入配置文件夹:

cd /usr/local/spark/conf/

复制模板文件:

sudo cp spark-env.sh.template spark-env.sh

修改Spark环境配置文件:

sudo vim spark-env.sh

在Spark环境中添加下列内容:

export JAVA_HOME=/usr/lib/jvm/default-java    # Java环境变量
export SCALA_HOME=/usr/local/scala    # SCALA环境变量
export SPARK_WORKING_MEMORY=1g    # 每一个worker节点上可用的最大内存
export SPARK_MASTER_IP=master    # 驱动器节点IP
export SPARK_LOCAL_DIRS=/usr/local/spark    
export HADOOP_HOME=/usr/local/hadoop    # Hadoop路径
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop    # Hadoop配置目录

复制模板文件:

cp workers. template workers #复制模板文件

配置 slave1、slave2 主机:

sudo vim workers

在 workers 文件中添加 slave1、slave2 主机:
在这里插入图片描述
由于 hadoop 集群中也有 start-all.sh,会与 spark 的启动命令冲突,因此我们将 Spark 的启动命令进行修改,将启动与停止的命令分别设置为 start-spark.sh 和 stop-spark.sh ;

cd / usr / local / spark/ sbin
sudo mv start − all . sh start −spark.sh
sudo mv stop−all . sh stop−spark.sh

检查修改情况:
在这里插入图片描述
Spark 的启动与停止命令修改成功。
启动 Spark 集群:

start −dfs. sh #启动HDFS
start −yarn.sh #启动资源管理器
start −spark.sh #启动spark集群

用 jps 查看机器上的进程,是否包含以下的进程:
master 上的进程:
在这里插入图片描述

成功实现 Spark 在的 linux 系统中的安装配置,并成功将 Spark 部署在资源管理器YARN 之上,实现使用 YARN 作为集群管理器的 YARN 模式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值