Ubuntu系统基于分布式hadoop安装spark
之前的文章中我们已经部署好了hadoop集群
首先打开三个虚拟机,现在我们需要安装Scala,因为Spark是基于Scala开发的,所以需要安装Scala。在Ubuntu下安装Scala很简单,我们只需要运行
sudo apt-get install scala
就可以安装Scala了。
安装完成后运行scala -version可以看到安装的Scala的版本,我现在2.11版,安装目录是在/usr/share/scala-2.11 。
接下来下载Spark。到官方网站,找到最新版的Spark的下载地址,选择Hadoop版本,
http://spark.apache.org/downloads.html
wget https://dlcdn.apache.org/spark/spark-3.2.1/spark-3.2.1-bin-hadoop3.2.tgz
这里是我的下载链接
当下载完毕后解压文件:
tar xvf spark-3.2.1-bin-hadoop3.2.tgz
接下来我们需要将解压的文件夹移动到指定目录,因为之前我们Hadoop安装到/usr/local/hadoop,所以我们也可以把Spark放在/usr/local/spark下:
sudo mv spark-3.2.1-bin-hadoop3.2.tgz /usr/local/spark
进入spark文件夹下的conf文件夹,里面有个spark-env.sh.template文件,是spark环境变量设置的目标,我们可以复制一个出来:
cp spark-env.sh.template spark-env.sh
然后编辑该文件
vim spark-env.sh
在文件的末尾我们添加上以下内容: