Spark 2.2 需要运行在java环境,是不是任何版本都可以呢?不见得。之前在spark官网中看到需要运行环境是jdk8+,所以本人安装了jdk9,但是在JDK 9环境下没有安装成功,运行spark的 ./bin/spark-shell会报某个配置值丢失(估计是JDK版本的问题)。这次安装时,选择了jdk 8,安装后运行正常。下面简单记录一下安装的过程,比较简单。
1. 下载Jdk,http://www.oracle.com/technetwork/java/javase/downloads/index.html, 选择JDK 8 下载
2. 安装JDK 8。rpm -ivh jdk-8u151-linux-x64.rpm
3. 设置JAVA_HOME. 在/etc/profile最后增加如下两行
export JAVA_HOME=/usr/java/jdk1.8.0_151
export PATH=$PATH:$JAVA_HOME/bin
根据自己安装的实际目录去设置java home。
4. 下载Spark。 http://spark.apache.org/downloads.html
选择2.2.0版本,包类型选择默认的“Pre-built for Apache Hadoop 2.7 and later”
5. Copy至要安装的目录下,解压缩
tar zxvf spark-2.2.0-bin-hadoop2.7.tgz
6. 运行Spark
./sbin/start-master.sh
检查logs中的日志,是否有错误
7. 运行spark-shell
./bin/spark-shell
没有错误的话就安装成功了。
另外,如果是使用的Python的话,可以安装Python,然后运行./bin/pyspark。本人在Python 3.6.3上安装成功。以下是安装Python 3.6简单操作
8. 下载Python 3.6
https://www.python.org/ftp/python/3.6.3/Python-3.6.3.tar.xz
9. 安装xz解压工具
yum install xz
10. 解压安装包
xz -d Python-3.6.3.tar.xz
tar xvf Python-3.6.3.tar
11. 编译及安装可参见 不畏惧兄的博客 http://www.cnblogs.com/cloud-80808174-sea/p/6902934.html
其中需要注意的是,在Spark 2.10版本以后不再支持Python2.7,所以在安装完Python3.6.3后,需要把3.6.3设为默认,在不畏惧兄的博客中有写如何更改。