Spark使用了Hadoop的HDFS作为持久化存储层,因此安装Spark时,应先安装与Spark版本相对应的Hadoop。Spark计算框架以Scala语言开发,因此部署Spark首先需要安装Scala及JDK。
Hadoop集群参考: ubuntu16+Hadoop2.7.3环境搭建(伪分布式),改为分布式集群
JDK版本:1.8.0
Scala版本:scala-2.13.0-M1
spark版本:2.2.0(目前最新版本)
由于本机Hadoop集群搭建完成,所以这里不再赘述Hadoop集群。本机hadoop集群 (一主两被) :
master:hadoopm
slave:hadoop_s1
slave:hadoop_s2
安装Scala
由上面给出的链接下载最新版scala。先在主机master(hadoopm)中安装。
安装
在下载目录下执行:
tar zxvf scala-2.13.0-M1.tgz -C /urs/local
配置
cd /etc/profile
末尾加入:
export SCALA_HOME=/usr/local/scala-2.13.0-M1
export PATH=${SCALA_HOMA}/bin:$PATH
安装spark
在上面的链接中下载最新版的sp