目录
2.传输、解压(和安装jdk、scala的方式相同,具体参考我之前的文章)
4.然后在目录spark-2.4.4下调用命令bin/spark-shell,检查spark是否安装成功,如果出现下图,则代表安装成功。
一、Spark有三种集群搭建方式:
1.Standalone:独立模式,Spark原生的简单集群管理器,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统,使用Standalone可以很方便地搭建一个集群
2.Apache Mesos:一个强大的分布式资源管理框架,它允许多种不同的框架部署在其上,包括yarn
3.Hadoop YARN:统一的资源管理机制,在上面可以运行多套计算框架,如map reduce、storm等,根据driver在集群中的位置不同,分为yarn client和yarn cluster。
二、为了适应小白学习Spark,本篇文章讲最简单的搭建方法,也就是第一种。由于Spark有local本地独立模式,就是运行在一台计算机上的模式,适用于在本机上练手和测试。(之后会更新其他集群环境的搭建)
1.首先创建一个spark文件夹,便于保存
mkdir /usr/local/spark
2.传输、解压(和安装jdk、scala的方式相同,具体参考我之前的文章)
最新Spark下载链接:http://spark.apache.org/downloads.html
历史版本Spark大全:https://archive.apache.org/dist/spark/
mv spark-2.4.4-bin-hadoop2.7.tgz /usr/local/spark
cd /usr/local/spark
tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz
# 后来我改用spark2.3.4版本
3.由于解压后的文件名称太长,我改了一个名字
mv spark-2.4.4-bin-hadoop2.7 spark-2.4.4
4.然后在目录spark-2.4.4下调用命令bin/spark-shell,检查spark是否安装成功,如果出现下图,则代表安装成功。
cd spark-2.4.4
bin/spark-shell
或者在bin目录下用./spark-shell
5.退出spark-shell
:quit