Windows下单机安装Spark开发环境
机器:windows 10 64位。
因Spark支持scala、java、python等语言,所以尝试安装了不同语言环境下的spark开发环境。
1、jdk1.8、Python 3.5的安装
1.1 jdk1.8的安装
- 安装oracle下的jdk,我安装的是jdk 1.8,安装完新建系统环境变量JAVA_HOME,变量值为“D:\Program Files\Java\jdk1.8.0_121”,视自己安装路径而定。
- 同时在系统环境变量中添加变量Path下添加D:\Program Files\Java\jdk1.8.0_121\bin和D:\Program Files\Java\jre8\bin。
- 之后再cmd命令行查看是否安装成功:java -version
1.2 Python 3.6.0 的安装
- 我是直接安装的集成开发包Anaconda3;同样,需要将安装路径添加到path中;C:\Users\Denius\Miniconda3和C:\Users\Denius\Miniconda3\Scripts
- 查看是否安装成功:
2、Spark环境配置
2.1 安装spark
去http://spark.apache.org/downloads.html网站下载相应hadoop对应的版本,我下载的是spark-1.6.0-bin-hadoop2.6.tgz,spark版本是1.6,对应的hadoop版本是2.6
解压下载的文件,假设解压 目录为:D:\spark-1.6.0-bin-hadoop2.6。将D:\spark-1.6.0-bin-hadoop2.6\bin添加到系统Path变量,同时新建SPARK_HOME变量,变量值为:D:\spark-1.6.0-bin-hadoop2.6
2.2 Hadoop工具包安装
- spark是基于hadoop之上的,运行过程中会调用相关hadoop库,如果没配置相关hadoop运行环境,会提示相关出错信息,虽然也不影响运行,但是这里还是把hadoop相关库也配置好吧。
- 去下载hadoop 2.7编译好的包,我下载的是hadoop-2.7.0.tar.gz;
- 解压下载的文件夹,将相关库添加到系统Path变量中:D:\hadoop-2.7.0\bin;同时新建HADOOP_HOME变量,变量值为:D:\hadoop-2.7.0;
2.3 安装py4j
- 将spark目录下的pyspark文件夹(D:\spark-1.6.0-bin-hadoop2.7\python\pyspark)复制到python安装目录D:\Python27\Lib\site-packages里;
- 在cmd命令行下运行pyspark,然后使用cd命令,进入目录D:\python27\Scripts;运行pip install py4j安装py4j库