前置条件
3台虚拟机主机名: master, slave1, slave2;
默认已经安装和配置好jdk,scala等环境和下载好安装包。
所使用到的命令用 蓝色 表示
安装spark
将下载好的 spark-2.4.4-bin-hadoop2.7.tgz上传到虚拟机master, 在安装包目录下使用命令
tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz -C /usr/local/spark
解压到 /usr/local/spark目录下
cd /usr/local/spark //进入到解压目录
mv spark-2.4.4-bin-hadoop2.7 spark-2.4.4 //更改目录名称
cd spark-2.4.4 //进入spark-2.4.4目录
cp conf/spark-env.sh.template conf/spark-env.sh //复制conf目录下 spark-env.sh.template并命名为spark-env.sh
vim conf/spark-env.sh //修改conf目录下的 spark-env.sh,根据实际在末尾添加以下内容
cp conf/slaves.template conf/slaves //复制conf目录下 slaves.template并命名为 slaves
vim conf/slaves //修改conf目录下的 slaves, 根据实际在末尾添加以下内容
配置spark环境变量
vim /etc/profile //添加spark环境变量,如下图
source /etc/profile //更新环境变量
将master主机配置好的spark-2.4.4分发到slave1和slave2,在slave1和slave2主机执行以下命令
cd /usr/local/spark //如果没有该目录则创建
scp -r hadoop@master:/usr/local/spark/spark-2.4.4 . //将master主机上的spark-2.4.4拷贝到当前目录
同样配置spark的环境变量并更新环境变量
回到master主机
cd /usr/local/spark/spark-2.4.4/sbin //进入spark的安装目录下的 sbin
./start-all.sh //启动spark
在浏览器输入地址访问spark 的WEBUI,地址为spark-env.sh配置文件配置的ip和端口
出现以下页面即安装成功