本文来详细介绍一下Spark集群的搭建及Spark的运行原理、运行模式。
—▼—
Spark集群环境搭建
如果已经理解了前文Hadoop集群环境的搭建,那么学习Spark集群环境的搭建会容易很多,因为Hadoop和Spark不仅安装包目录结构非常相似,在配置方面也十分接近。均是在master节点上进行所有配置,然后打包复制到每个slave节点,然后启动集群Spark即可,下面就来详细介绍一下Spark集群环境的搭建。
下载安装
进入Spark的下载目录,
https://spark.apache.org/downloads.html
可以看到Spark分多个版本,有基于Hadoop构建好的,有没基于Hadoop构建的,有基于Hadoop2.6之前版本构建的,也有基于Hadoop2.7以后版本构建的,由于前面讲解Hadoop集群环境搭建时采用的是Hadoop 3.2.1,因此,而且本文需要使用HDFS依赖Hadoop,因此需要下载Pre-built for Apache Hadoop 2.7 and later,
把spark-2.4.4-bin-hadoop2.7.tgz文件下载到home路径下,然后解压到指定目录,
$ tar -zxvf ~/spark-2.4.4-bin-hadoop2.7.tgz -C /usr/local/
然后进入目录并像Hadoop那样,修改Spark目录的拥有者,
$ cd /usr/local
$ sudo mv ./spark-2.4.4-bin-hadoop2.7 ./spark
$ sudo chowm -R user_name ./spark
配置环境变量
修改bashrc,配置环境变量,把Spark的bin和sbin路径加入到环境变量,