Spark2.1.0集群安装

1. 安装Spark之前需要安装Java环境和Hadoop环境Scala环境。

    需要准备三台虚拟机

   192.168.230.31 vm1

   192.168.230.32 vm2

   192.168.230.32 vm3

2. 安装Spark依赖的Scala,因为Spark依赖scala,所以在安装Spark之前,这里要先安装scala

在每个节点上都进行安装。

a) 下载和解压缩 Scala, 打开地址: http://www.scala-lang.org/

直接打开下面的地址也可以:

Scala 2.12.2 | The Scala Programming Language

如图:

执行命令进行解压缩:

tar   -xvf    scala-2.12.2.tgz

b) 配置环境变量      

编辑/etc/profile这个文件,在文件中增加一行配置:

export    SCALA_HOME=/opt/scala/scala-2.12.2     

在该文件的PATH变量中增加下面的内容:  $SCALA_HOME/bin

        

       环境变量配置完成后,执行下面的命令:

       source /etc/profile

      c) 验证Scala  

       scala -version

3. 下载和解压缩Spark

      在每个节点上都安装Spark,也就是重复下面的步骤。

      a)下载Spark压缩包

       打开下载地址:Downloads | Apache Spark

     b) 进入下载页面后,点击主页侧的“Download”按钮进入下载页面,下载页面中提供了几个下 

       载选项,主要是Spark releasePackage type的选择,如下图所示。第1Spark release一般

       默认选择最新的发行版本,如截止至20163月份的最新版本为3.1.2。第2package type

       选择“Pre-build with user-provided Hadoop [can use with most Hadoop distributions]”,可适用

       于多数Hadoop版本。选择好之后,再点击第4项给出的链接就可以下载Spark了。

若要下载老的版本,点击下方的Spark release archives即可

 c) 来到下载页面选择需要的版本,点击下载即可

执行解压缩命令:

tar   -zxvf   spark-2.1.1-bin-hadoop2.7.tgz

d) 配置环境变量编辑/etc/profile文件,增加

   export  SPARK_HOME=/opt/spark/spark-2.1.1-bin-hadoop2.7     

  上面的变量添加完成后编辑该文件中的PATH变量,添加

    $SPARK_HOME/bin     

    注意:因为$SPARK_HOME/sbin目录下有一些文件名称和$HADOOP_HOME/sbin目录下的文

    件同名,为了避免同名文件冲突,这里不在PATH变量里添加$SPARK_HOME/sbin只添加了

    $SPARK_HOME/bin

 编辑完成后,执行命令:source    /etc/profile

4. 配置conf目录下的文件        

   对/opt/spark-2.1.0-bin-hadoop2.7/conf目录下的文件进行配置。

a) 新建spark-env.h文件       
 执行命令,进入到/opt/spark-2.1.0 -bin-hadoop2.7/conf目录内:

         cd    /opt/spark-2.1.0-bin-hadoop2.7/conf      

         以spark为我们创建好的模板创建一个spark-env.h文件,命令是:

        cp    spark-env.sh.template   spark-env.sh

        编辑spark-env.sh文件,在里面加入配置(具体路径以自己的为准):

      

      b) 新建slaves文件

       执行命令,进入到/opt/spark/spark-2.1.1-bin-hadoop2.7/conf目录内:

       cd   /opt/spark/spark-2.1.1-bin-hadoop2.7/conf

       以spark为我们创建好的模板创建一个slaves文件,命令是:

       cp    slaves.template   slaves

      编辑slaves文件,里面的内容为:

     

5. 启动和测试Spark集群

   a)启动Spark         

   因为spark是依赖于hadoop提供的分布式文件系统的,所以在启动spark之前,先确保hadoop在

   正常运行。

   在hadoop正常运行的情况下,在vm1(也就是hadoop的namenode,spark的master节点)上执

   行命令: cd   /opt/spark-2.1.0-bin-hadoop2.7/sbin   

   执行启动脚本:  sh start-all.sh

   

   b) jps查看进程    

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值