1. 安装Spark之前需要安装Java环境和Hadoop环境和Scala环境。
需要准备三台虚拟机
192.168.230.31 vm1
192.168.230.32 vm2
192.168.230.32 vm3
2. 安装Spark依赖的Scala,因为Spark依赖scala,所以在安装Spark之前,这里要先安装scala。
在每个节点上都进行安装。
直接打开下面的地址也可以:
Scala 2.12.2 | The Scala Programming Language
如图:
执行命令进行解压缩:
tar -xvf scala-2.12.2.tgz
b) 配置环境变量
编辑/etc/profile这个文件,在文件中增加一行配置:
export SCALA_HOME=/opt/scala/scala-2.12.2
在该文件的PATH变量中增加下面的内容: $SCALA_HOME/bin
环境变量配置完成后,执行下面的命令:
source /etc/profile
c) 验证Scala
scala -version
3. 下载和解压缩Spark
在每个节点上都安装Spark,也就是重复下面的步骤。
a)下载Spark压缩包
打开下载地址:Downloads | Apache Spark
b) 进入下载页面后,点击主页左侧的“Download”按钮进入下载页面,下载页面中提供了几个下
载选项,主要是Spark release及Package type的选择,如下图所示。第1项Spark release一般
默认选择最新的发行版本,如截止至2016年3月份的最新版本为3.1.2。第2项package type则
选择“Pre-build with user-provided Hadoop [can use with most Hadoop distributions]”,可适用
于多数Hadoop版本。选择好之后,再点击第4项给出的链接就可以下载Spark了。
若要下载老的版本,点击下方的Spark release archives即可
c) 来到下载页面选择需要的版本,点击下载即可
执行解压缩命令:
tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz
d) 配置环境变量编辑/etc/profile文件,增加
export SPARK_HOME=/opt/spark/spark-2.1.1-bin-hadoop2.7
上面的变量添加完成后编辑该文件中的PATH变量,添加
$SPARK_HOME/bin
注意:因为$SPARK_HOME/sbin目录下有一些文件名称和$HADOOP_HOME/sbin目录下的文
件同名,为了避免同名文件冲突,这里不在PATH变量里添加$SPARK_HOME/sbin只添加了
$SPARK_HOME/bin
编辑完成后,执行命令:source /etc/profile
4. 配置conf目录下的文件
对/opt/spark-2.1.0-bin-hadoop2.7/conf目录下的文件进行配置。
cd /opt/spark-2.1.0-bin-hadoop2.7/conf
以spark为我们创建好的模板创建一个spark-env.h文件,命令是:
cp spark-env.sh.template spark-env.sh
编辑spark-env.sh文件,在里面加入配置(具体路径以自己的为准):
b) 新建slaves文件
执行命令,进入到/opt/spark/spark-2.1.1-bin-hadoop2.7/conf目录内:
cd /opt/spark/spark-2.1.1-bin-hadoop2.7/conf
以spark为我们创建好的模板创建一个slaves文件,命令是:
cp slaves.template slaves
编辑slaves文件,里面的内容为:
5. 启动和测试Spark集群
a)启动Spark
因为spark是依赖于hadoop提供的分布式文件系统的,所以在启动spark之前,先确保hadoop在
正常运行。
在hadoop正常运行的情况下,在vm1(也就是hadoop的namenode,spark的master节点)上执
行命令: cd /opt/spark-2.1.0-bin-hadoop2.7/sbin
执行启动脚本: sh start-all.sh
b) jps查看进程