1. 机器准备
准备两台以上Linux系统集群并配置好jdk1.8。
2. 下载Spark安装包
2.1 下载与自己hadoop版本相对应的Spark版本
2.2 上传Spark压缩到虚拟机中
上传spark-2.1.1-bin-hadoop2.7.tgz安装包到Linux上
2.3 根据自己的需要解压安装包到指定位置
tar -xfvf spark-2.1.1-bin-hadoop2.7.tgz
3. 配置Spark
Spark的部署模式有Local、Local-Cluster、Standalone、Yarn、Mesos,我们选择最具代表性的Standalone集群部署模式。
3.1 进入到Spark安装目录
cd /home/hduser/software/spark/conf
3.2 将slaves.template复制为slaves
修改slave文件,将work的hostname输入:
3.3 修改spark-env.sh文件,添加如下配置:
3.4 将配置好的Spark文件拷贝到其他节点上
scp -r spark hduser@cloud11:~/software
scp -r spark hduser@cloud12:~/software
Spark集群配置完毕,目前是1个Master,2个Work
3.5 将配置好的Spark文件拷贝到其他节点上
在主节点上master01上启动Spark集群
/home/hduser/software/spark/sbin/start-all.sh
启动后执行jps命令,主节点上有Master进程,其他子节点上有Work进行,登录Spark管理界面查看集群状态(主节点):http://cloud10:8080/
改错:
注意:如果遇到 “JAVA_HOME not set” 异常,可以在sbin目录下的spark-config.sh 文件中加入如下配置:
export JAVA_HOME=XXXX