在集群启动的前提下,首先安装scala(主节点与从节点都安装),scala安装教程:http://blog.csdn.net/shuang_927/article/details/75986240
从官网下载spark安装包,此次讲解所安装的版本为:
Scala-2.10.6
hadoop-2.7.1
spark-1.6.1-bin-hadoop2.6
配置环境变量:
编辑根目录下的.bash_profile文件,添加如下两行:
export SPARK_HOME=/usr/spark/spark-1.6.1-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin
看到很多博客,都有配置如图所示JAR这一行,如:
export SPARK_EXAMPLES_JAR=$HOME/spark-0.7.2/examples/target/scala-2.9.3/spark-examples_2.9.3-0.7.2.jar
但我是在spark的安装目录下的examples文件夹下,没有target及其以下路径的文件和jar,不知道是否有人遇到和我一样的情况,因此我配置的路径为lib目录下的jar包。
进入spark的安装目录下的conf文件夹下,
cp spark-env.sh.template spark-env.sh
修改spark-env.sh文件,添加如下三行:
export SCALA_HOME=/usr/scala/scala-2.10.6
export JAVA_HOME=/usr/java/jdk1.8.0_101
SPARK_MASTER_IP=master
复制slaves.template到slaves:cp slaves.template slaves
修改slaves文件内容:(把localhost修改为从节点的主机名,有几个从节点就写几个)
将master配置好的文件拷贝至从节点根目录:scp spark-1.6.1-bin-hadoop2.6 root@slave:~/
进入slave,将拷贝的文件移动至与master的相同文件夹下。
启动spark集群:(在master上执行)
进入spark安装目录下的sbin目录,启动集群命令:./start-all.sh
执行jps命令,如图所示证明启动验证成功:
master:
slave:
虚拟机浏览器访问http://master:8080,出现如下页面
关闭spark集群命令:进入spark安装目录下的sbin目录,执行./stop-all.sh。