文章目录
1 版本说明
- jdk1.8.0_311
- hadoop-3.1.3
- spark-3.0.0
2 搭建 Spark 完全分布式 Yarn 运行环境
2.1 搭建 Hadoop 环境
在之前的文章中已经详细介绍过:【Hadoop 3】图文详解:搭建Hadoop完全分布式运行模式
因为是 Yarn 运行模式,因此要先保证 Hadoop 集群的正常运行,首先要启动 Hadoop 环境,进程情况如下,之后我们要配置 Spark 的完全分布式 Yarn 运行环境,其集群规划如下,有三台客户机,Worker 和 Master 的部署方式如下图红字所示:
2.2 Spark 配置
1、解压 Spark 压缩包
tar -zxvf spark-xx.tgz -C /目的地址
2、来到 Spark 下的 conf 目录,给环境变量文件改名,并且添加新的配置
来到最下面,添加 Java 环境变量,添加 Yarn 配置的路径
2.3 配置 Spark 历史服务器
来到 Spark 下的 conf 目录
(1)给 spark 默认配置文件改名
(2)添加配置,两个文件添加的内容与图片顺序对应
1)添加 spark-default.conf 的配置,配置日志存储路径和历史服务器端口
2)在 HDFS 中创建上面指定的 directory 目录(hadoop fs -mkdir /directory)
3)添加 spark-env.sh 的配置
2.4 编写 Spark 集群启动的脚本
在这之前要进行各节点的 SSH 授权认证
#!/bin/bash
if [ $# -lt 1 ]
then
echo "No Args Input..."
exit ;
fi
case $1 in
"start")
echo " --------------- 【启动】 ---------------"
echo " --------------- 启动 spark 集群 ---------------"
ssh hadoop102 "/opt/module/spark-3.0.0/sbin/start-all.sh"
echo " --------------- 启动 Spark 历史服务器---------------"
ssh hadoop102 "/opt/module/spark-3.0.0/sbin/start-history-server.sh"
;;
"stop")
echo " --------------- 【关闭】 ---------------"
echo " --------------- 关闭 spark 集群 ---------------"
ssh hadoop102 "/opt/module/spark-3.0.0/sbin/stop-all.sh"
echo " --------------- 关闭 Spark 历史服务器---------------"
ssh hadoop102 "/opt/module/spark-3.0.0/sbin/stop-history-server.sh"
;;
*)
echo "Input Args Error..."
;;
esac
2.5 启动集群
事先已启动 Hadoop,这里执行 Spark 的群起脚本,启动成功
查看当前 Java 进程状态,集群配置成功!
2.6 实例测试
用 Spark 自带的 jar 包进行测试
在监控页面中查看