最近再windows环境下安装pysaprk环境,就将安装步骤记录下来
配置过程如下:
Python
JAVA(JHK)
Spark
Scala
Hadoop
个人意见最好是将需要安装的都放在一个文件夹中,我就是在安装在D:\package
1 Python
使用的是python环境为Anaconda,本人安装的环境是3.5
2 JDK
https://www.oracle.com/technetwork/java/javase/downloads/index.html进入此网站下载JAVA
点击上图的download即可进入下载页面
根据自己的电脑是64或32位操作系统,选择自己合适的版本,我选择的是jdk-8u211-windows-x64,下载到指定的文件夹(我的是在D:\package),在此目录下新建个文件夹D:\package\java,在文件夹java下,再新建2个空的文件夹(如jdk,jre).
接下来电极jdk-8u211-windows-x64,直接安装就可以了,安装的路径选择D:\package\java\jdk,注意在安装过程中会提示安装jre文件,此时选择你新建的里一个文件夹(如D:\package\java\jre),等待安装成功就好。
环境配置,打开电脑控制面板-->高级系统设置-->环境变量
(1)在系统变量新建JAVA_HOME,变量值为你安装的jdk路径
(2)新建系统变量CLASSPATH,变量值 %JAVA_HOME%\lib
(3)在系统变量path中新建 %JAVA_HOME%\bin。
此刻java环境就已经配置完成了
打开cmd,输入java,出现如下就表示成功了,并没有报错。
3 scala
进入下载页面 https://www.scala-lang.org/download/2.12.8.html
选中红色标注的文件,下载至D:\package,直接解压就好,下面就进行环境设置就好
在系统变量中新建SCALA_HOME
在系统变量path路径,新建%SCALA_HOME%\bin
在cmd中,输入scala,出现如下就表明没问题
也可以输入scala -version(其他的安装也可以这样查看)
4 pyspark
进入pysaprk下载页面http://spark.apache.org/downloads.html
选择下载spark-2.4.3-bin-hadoop2.7,,下载☞D:\package这部分下载时间稍微久一点。下载晚才后,解压
在系统变量加入SPARK_HOME,变量值为你解压后的spark路径
在path中添加
%SPARK_HOME%\bin
%SPARK_HOME%\bin
在cmd中输入pyspark,出现下图即可
5 hadoop
hadoop配置和pyspark比较像,不过要注意一定要与spark版本匹配。
http://mirror.bit.edu.cn/apache/hadoop/common/
解压后,接下来有3步操作:
(1)配置环境
系统变量中新建SPARK_HOME,变量值为解压路径
在path路径中添加
%HADOOP_PATH%\bin
(2)准备winutils文件
winutils.exe文件,如果没有的话,我们需要去下载。
winutils.exe下载地址https://github.com/steveloughran/winutils
根据自己安装的hadoop版本下载对应的winutils.exe文件,下好后,将其复制到刚刚解压的hadoop文件夹的bin子文件夹下
(3)更改路径
打开及解压的hadoop文件夹下etc\hadoop文件夹(如D:\package\hadoop-2.7.7\etc\hadoop),打开hadoop-env文件,
将 set JAVA_HOME=此处为上述步骤2中安装好的jdk路径(如我的D:\package\java\jdk),须注意千万不要出现空格,不然会导致后面出现查询不到JAVA_HOME路径
此时在终端输入hadoop,出现如下图所示即成功
6 导入pyspark使用
本文主要基于jupyter notebook使用spark
如果你已经将pip设置了系统环境的话,可以直接通过cmd,输入pip install findspark,安装成功即可
若是没有的话,那也没关系,打开Anaconda下的Anaconda Prompt,再输入pip install findspark。
打开notebook
输入
>> import findspark
>> findspark.init()
运行后输入
import pyspark即可查证受否安装成功。要是没有安装成功的话,那就多看看上面的安装步骤。