Hadoop环境下安装Spark-2.4.8
环境准备
-
Linux(CentOS7)
-
Hadoop(3.1.3)
-
JDK(1.8)
1.下载Spark安装包
访问Spark官网下载Spark安装文件,spark-2.4.8版本下载地址,将其放到/opt/software
目录下。
下载完安装文件后,需要对文件进行解压,执行命令将其解压到/opt/module/
目录下。
$ tar -zxvf spark-2.4.8-bin-hadoop2.7.tgz -C /opt/module
修改spark目录名称。
$ cd /opt/module
$ mv spark-2.4.8-bin-hadoop2.7/ ./spark-2.4.8
2.配置相关文件
安装文件解压缩后,还需修改Spark的配置文件spark-env.sh。首先复制一份Spark安装文件自带的配置文件模板以修改。
$ cd spark-2.4.8/
$ cp ./conf/spark-env.sh.template ./conf/spark-env.sh
然后使用vim编辑器打开spark-env.sh文件进行编辑,
$ vim ./conf/spark-env.sh
在文件第一行添加配置信息
export SPARK_DIST_CLASSPATH=$(/opt/module/hadoop-3.1.3/bin/hadoop classpath)
#括号里是/hadoop安装目录/bin/hadoop空格后直接输classpath
添加后保存,这样Spark就可以把数据存储到Hadoop分布式文件系统HDFS中,也可以从HDFS中读取数据。
3.通过实例验证Spark是否安装成功
进入到Spark目录下,执行实例SparkPi
$ cd /opt/module/spark-2.4.8/
$ bin/run-example SparkPi
执行命令会输出很多屏幕信息,不容易找到输出结果,通过grep
命令过滤,
$ bin/run-example SparkPi 2>&1 |grep "Pi is roughly"
过滤后得到,可以得到Π的近似值。