spark集群环境的搭建是在hadoop集群环境搭建成功的基础上进行的,hadoop分布式集群搭建博客:https://blog.csdn.net/qq_44091004/article/details/128221006
spark安装包地址:
链接:https://pan.baidu.com/s/1ejVamlrlyoWtJRo1QQqlsA
提取码:fcqm
安装包是通过一个软件xftp传送到虚拟机中指定位置的,xshell和xftp安装包地址
链接:https://pan.baidu.com/s/1Fr_v7SzdFLkwXoa-hNAJLQ
提取码:zd2g
在主机master
解压缩hadoop压缩文件到/usr/local目录下并将文件夹名改为hadoop,将hadoop的权限给到hadoop用户
cd /usr/local
sudo tar -zxvf ~/spark-2.4.0-bin-without-hadoop.tgz -C /usr/local
sudo mv spark-2.4.0-bin-without-hadoop spark/
sudo chown -R hadoop ./hadoop
修改~/.bashrc文件
sudo vi ~/.bashrc
修改内容
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
让bashrc文件配置立即生效
source ~/.bashrc
在主机master上配置slaves文件
cd /usr/local/spark
sudo cp ./conf/slaves.template ./conf/slaves
将里面的localhost替换为从节点slave01
salve01
配置spark-env.sh文件
sudo cp spark-env.sh.template spark-env.sh
sudo vi spark-env.sh
修改信息如下
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoopclasspath #帮助sopark与hadoop挂接
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop #hadoop配置信息所在路径
export SPARK_MASTER_IP=192.168.1.102 #主机ip地址
将master主机上/usr/local/spark路径下的文件打包为spark.master.tar.gz发送给主机slave01。
cd /usr/local
tar -zcf ~/spark.master.tar.gz ./spark
cd ~
scp ./spark.master.tar.gz slave01:/home/hadoop
在主机slave01上解压缩,并配置~/.bashrc文件
sudo tar -zxvf ~/spark.master.tar.gz -C /usr/local
sudo chown -R hadoop /usr/local/spark
vi ~/.bashrc
修改内容如下
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
让配置文件生效
source ~/.bashrc
启动集群
在主机master上启动集群
先启动hadoop集群
cd /usr/local/hadoop
./sbin/start-all.sh
启动master结点
```shell
cd /usr/local/spark
./sbin/start-master.sh
启动slave01结点
```shell
./sbin/start-slaves.sh
在master主机上访问http://master:8080,出现下面页面表示成功
关闭集群:先关闭spark后关闭hadoop,都在master主机上操作。
cd /usr/local/spark
sbin/stop-master.sh
sbin/stop-slaves.sh
cd /usr/local/hadoop
sbin/stop-all.sh
参考博客:
https://dblab.xmu.edu.cn/blog/1187/