YARN 模式的 Spark 安装配置

枫学习

已于 2023-03-08 11:31:20 修改

阅读量484

点赞数 1

文章标签： spark 大数据 hadoop

于 2023-03-08 11:28:01 首次发布

本文链接：https://blog.csdn.net/CcfXx2000/article/details/129399334

版权

YARN模式的Spark介绍

Spark是专为大规模数据处理而设计的快速通用的计算引擎。是美国加州大学伯克利分校的AMP实验室所开源的类Hadoop MapReduce的通用并行框架，可用来构建大型的、低延迟的数据分析应用程序。

在这里插入图片描述

Spark on Yarn 模式就是将Spark应用程序跑在Yarn集群之上，通过Yarn资源调度将executor启动在container中，从而完成driver端分发给executor的各个任务。将Spark作业跑在Yarn上，首先需要启动Yarn集群，然后通过spark-shell 或spark-submit 的方式将作业提交到 Yarn 上运行。

软件版本

VirtualBox 6.1.14
Ubuntu 16.04
Hadoop: 3.1.3
Scala: 2.12.16
Spark: 3.2.1

配置YARN模式的Spark

进入配置文件夹：

cd /usr/local/spark/conf/

复制模板文件:

sudo cp spark-env.sh.template spark-env.sh

修改Spark环境配置文件：

sudo vim spark-env.sh

在Spark环境中添加下列内容:

export JAVA_HOME=/usr/lib/jvm/default-java    # Java环境变量
export SCALA_HOME=/usr/local/scala    # SCALA环境变量
export SPARK_WORKING_MEMORY=1g    # 每一个worker节点上可用的最大内存
export SPARK_MASTER_IP=master    # 驱动器节点IP
export SPARK_LOCAL_DIRS=/usr/local/spark    
export HADOOP_HOME=/usr/local/hadoop    # Hadoop路径
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop    # Hadoop配置目录

复制模板文件：

cp workers. template workers #复制模板文件

配置 slave1、slave2 主机：

sudo vim workers

在 workers 文件中添加 slave1、slave2 主机：
在这里插入图片描述
由于 hadoop 集群中也有 start-all.sh，会与 spark 的启动命令冲突，因此我们将 Spark 的启动命令进行修改，将启动与停止的命令分别设置为 start-spark.sh 和 stop-spark.sh ；

cd / usr / local / spark/ sbin
sudo mv start − all . sh start −spark.sh
sudo mv stop−all . sh stop−spark.sh

检查修改情况：
在这里插入图片描述
Spark 的启动与停止命令修改成功。
启动 Spark 集群:

start −dfs. sh #启动HDFS
start −yarn.sh #启动资源管理器
start −spark.sh #启动spark集群

用 jps 查看机器上的进程，是否包含以下的进程：
master 上的进程：
在这里插入图片描述

成功实现 Spark 在的 linux 系统中的安装配置，并成功将 Spark 部署在资源管理器YARN 之上，实现使用 YARN 作为集群管理器的 YARN 模式。

枫学习

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫