在CentOS6.9搭建Spark2.4.0集群

最新推荐文章于 2023-05-03 00:48:22 发布

andyguan01_2

最新推荐文章于 2023-05-03 00:48:22 发布

阅读量462

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/andyguan01_2/article/details/86630898

版权

spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、环境

操作系统：CentOS6.9
软件版本：Spark2.4.0
集群架构：
master：10.200.4.117（oracle02）
worker1：10.200.4.116（oracle03）
worker2：10.100.125.156（db01）

集群已安装Hadoop2.6.5，现在需要安装Spark2.4.0。

二、搭建Spark集群

先在master（117服务器）安装配置好Spark后，再将安装目录拷贝到worker（116和156服务器）。

以下操作在master（117服务器）进行。

1、安装Spark

在浏览器输入下列网址来下载Spark：

https://spark.apache.org/downloads.html

选择2.4.0版本，对应Hadoop2.6版本，拷贝tgz文件下载链接地址后，使用wget下载。
在这里插入图片描述
在root用户使用wget命令下载安装文件：

wget https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.6.tgz

在这里插入图片描述
解压文件到安装目录：

tar -zxvf spark-2.4.0-bin-hadoop2.6.tgz -C /u01/app

更改Spark安装目录的所有者和组：（之前Hadoop安装在hadoop用户，归属hadoop组）

chown -R hadoop:hadoop /u01/app/spark-2.4.0-bin-hadoop2.6

2、配置环境变量

2.1 配置/etc/profile文件

在profile文件增加Spark环境变量：

vi /etc/profile

增加以下内容：

export SPARK_HOME=/u01/app/spark-2.4.0-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

使环境变量生效：

source /etc/profile

2.2 配置spark-env.sh文件

vi $SPARK_HOME/conf/spark-env.sh

增加以下内容：

#设置master的IP或服务器名称
export SPARK_MASTER_IP=10.200.4.117
#设置每个Worker使用的CPU核心
export SPARK_WORKER_CORES=8
#设置每个work使用的内存
export SPARK_WORKER_MEMORY=8g
#设置实例数
export SPARK_WORKER_INSTANCES=1

2.3 配置slaves文件

cd $SPARK_HOME/conf
cp  slaves.template slaves
vi slaves

将最后一行的localhost修改成：
10.200.4.117
10.200.4.116
10.100.125.156

3、从master（117服务器）复制Spark安装目录到worker（116和156服务器）

以root用户登录worker（116和156服务器），分别创建Spark安装目录：

mkdir /u01/app/spark-2.4.0-bin-hadoop2.6
chown hadoop:hadoop  /u01/app/spark-2.4.0-bin-hadoop2.6

以hadoop用户登录master（117服务器），复制Spark安装目录到worker（116和156服务器）：

scp -r $SPARK_HOME hadoop@10.200.4.116:/u01/app
scp -r $SPARK_HOME hadoop@10.100.125.156:/u01/app

4、在worker（116和156服务器）配置/etc/profile文件

以root用户登录worker（116和156服务器），分别在profile文件增加Spark环境变量：

vi /etc/profile

增加以下内容：

export SPARK_HOME=/u01/app/spark-2.4.0-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

使环境变量生效：

source /etc/profile

5、启动和停止Spark

此操作只在master（117服务器）执行：

start-master.sh：启动master
start-slaves.sh：启动slaves
start-all.sh：同时启动master和slaves

stop-master.sh：停止master
stop-slaves.sh：停止slaves
stop-all.sh：同时停止master和slaves

因为Hadoop里面也有start-all.sh和stop-all.sh两个文件，为便于区分，在这里重新命名一下：

mv $SPARK_HOME/sbin/start-all.sh $SPARK_HOME/sbin/start-spark-all.sh
mv $SPARK_HOME/sbin/stop-all.sh $SPARK_HOME/sbin/stop-spark-all.sh

启动Spark：

start-spark-all.sh

启动后，查看master的jps，多出Master和Worker进程：
在这里插入图片描述
查看worker的jps，多出Worker进程：

6、查看管理界面

打开以下网址，访问Spark的WebUI界面：

http://10.200.4.117:8080/

在这里插入图片描述
完毕。

andyguan01_2

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录