1、官网下载安装包再通过WinSCP传到服务器上,并解压
2、进入安装目录并修改配置文件
(1)spark-env.sh 的最后添加(配置信息顾名思义)
export JAVA_HOME=/root/training/jdk1.8.0_144
export SPARK_MASTER_HOST=bigdata11
export SPARK_MASTER_PORT=7077
(2)slaves (配置worker)
ip地址
3、因为Spark的启动命令和Hadoop的启动命令冲突所以不配置环境变量而是在sbin目录下启动
4、查看启动日志,也可以在浏览器通过8080端口(由此可见Spark内置Tomcat服务器)打开查看
5、浏览器
地址栏输入 ip:8080 查看
6、全分布式环境搭建只需要修改在主节点(假设三台机器中的1)上的slave文件,将worker(三台机器中的 2 3)的ip配置上,再将主节点上配置好的Spark安装目录cp到另外两台机器上(需要配置ssh具体参考之前的文章)接着在主节点上执行上面的启动命令即可
scp -r spark-2.1.0-bin-hadoop2.7/ root@ip地址:/root/training