【大数据开发 Spark】第四篇：搭建 Spark 完全分布式 Yarn 运行环境

最新推荐文章于 2023-04-01 11:46:08 发布

超周到的程序员

最新推荐文章于 2023-04-01 11:46:08 发布

阅读量1k

点赞数 3

分类专栏：大数据开发技术 # Spark 文章标签： spark big data 分布式

本文链接：https://blog.csdn.net/m0_46360532/article/details/125024641

版权

大数据开发技术同时被 2 个专栏收录

16 篇文章 3 订阅

订阅专栏

Spark

5 篇文章 1 订阅

订阅专栏

文章目录

1 版本说明

jdk1.8.0_311
hadoop-3.1.3
spark-3.0.0

2 搭建 Spark 完全分布式 Yarn 运行环境

2.1 搭建 Hadoop 环境

在之前的文章中已经详细介绍过：【Hadoop 3】图文详解：搭建Hadoop完全分布式运行模式

因为是 Yarn 运行模式，因此要先保证 Hadoop 集群的正常运行，首先要启动 Hadoop 环境，进程情况如下，之后我们要配置 Spark 的完全分布式 Yarn 运行环境，其集群规划如下，有三台客户机，Worker 和 Master 的部署方式如下图红字所示：

在这里插入图片描述

2.2 Spark 配置

1、解压 Spark 压缩包

tar -zxvf spark-xx.tgz -C /目的地址

在这里插入图片描述

2、来到 Spark 下的 conf 目录，给环境变量文件改名，并且添加新的配置

在这里插入图片描述

来到最下面，添加 Java 环境变量，添加 Yarn 配置的路径

在这里插入图片描述

2.3 配置 Spark 历史服务器

来到 Spark 下的 conf 目录

（1）给 spark 默认配置文件改名

在这里插入图片描述

（2）添加配置，两个文件添加的内容与图片顺序对应

1）添加 spark-default.conf 的配置，配置日志存储路径和历史服务器端口

在这里插入图片描述

2）在 HDFS 中创建上面指定的 directory 目录（hadoop fs -mkdir /directory）

3）添加 spark-env.sh 的配置

在这里插入图片描述

2.4 编写 Spark 集群启动的脚本

在这之前要进行各节点的 SSH 授权认证

#!/bin/bash

if [ $# -lt 1 ]
then
    echo "No Args Input..."
    exit ;
fi

case $1 in
"start")
        echo " --------------- 【启动】 ---------------"
        echo " --------------- 启动 spark 集群 ---------------"
        ssh hadoop102 "/opt/module/spark-3.0.0/sbin/start-all.sh"
        echo " --------------- 启动 Spark 历史服务器---------------"
        ssh hadoop102 "/opt/module/spark-3.0.0/sbin/start-history-server.sh"
;;
"stop")
        echo " --------------- 【关闭】 ---------------"
        echo " --------------- 关闭 spark 集群 ---------------"
        ssh hadoop102 "/opt/module/spark-3.0.0/sbin/stop-all.sh"
        echo " --------------- 关闭 Spark 历史服务器---------------"
        ssh hadoop102 "/opt/module/spark-3.0.0/sbin/stop-history-server.sh"
;;
*)
    echo "Input Args Error..."
;;
esac