下载安装包
官网下载地址:http://spark.apache.org/downloads.html
我选择的是 Spark 2.4.5 版本,Pre-build with user-provided Apache Hadoop属于Hadoop free版,可应用到任意 Hadoop 版本。
安装Spark
将其解压到/usr/local目录下
sudo tar -zxf ~/下载/spark-2.4.5-bin-without-hadoop.tgz -C /usr/local/
为了之后方便使用,将解压后的文件重命名为spark
sudo mv ./spark-2.4.5-bin-without-hadoop/ ./spark
为文件赋予权限
sudo chown -R hadoop:hadoop ./spark
其中hadoop为当前登录Linux系统的用户名
修改 Spark的配置文件spark-env.sh
切换到/usr/local/spark目录下,复制一份由Spark安装文件自带的配置文件模板
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
编辑spark-env.sh文件(vim ./conf/spark-env.sh),增加如下配置信息:
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
保存退出后Spark就安装完成了
运行Spark自带程序,验证Spark是否安装成功
./bin/run-example SparkPi
上面的命令在执行时会输出很多屏幕信息,不容易找到最终的输出结果,为了从大量的输出信息中快速找到我们想要的执行信息,可以通过 grep 命令进行过滤。
./bin/run-example SparkPi 2>&1 | grep "Pi is roughly"
启动Spark Shell
./bin/spark-shell
可以查看到Spark版本和Scala版本
退出Spark Shell
:quit
Spark的安装和配置就成功完成了,以上就是本次操作的所有内容,有什么不对的地方随时指出来哦