1.Spark安装所需软件
(1)jdk:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
(2)Anaconda:https://www.continuum.io/downloads/
(3)Spark2.7:http://spark.apache.org/downloads.html
(4)linux系统:CentOS-6.5-x86_64
2.jdk安装
(1)首先在官网下载jdk安装包,然后通过rpm方式安装。如下图所示:
(2)然后,通过修改~/.bashrc文件的方式配置java环境变量。
vi ~/.bashrc
应用上述修改:
source ~/.bashrc
(3)测试java是否安装成功
java -version
3.Anaconda安装
(1)通过bash方式来安装Anaconda
(2)配置环境变量
在终端输入$sudo gedit /etc/profile,打开profile文件。
在文件末添加一行:
# “/root/anaconda3/bin为实际安装路径”
export PATH=/root/anaconda3/bin:$PATH
如下图所示:
保存修改内容后重启linux。
(3)测试Anaconda是否安装成功。
4.Spark安装
(1)解压spark
tar -vxf spark-2.1.1-bin-hadoop2.7.tgz
(2)PySpark测试
PySpark 测试时只需将当前路径切换到spark文件目录,执行./bin/pyspark即可。
(3)用自带的README文件做简单的统计测试
如下图所示: