windows环境配置pyspark+hadoop

最近再windows环境下安装pysaprk环境,就将安装步骤记录下来

配置过程如下:

Python

JAVA(JHK)

Spark

Scala

Hadoop

 

个人意见最好是将需要安装的都放在一个文件夹中,我就是在安装在D:\package

1 Python

使用的是python环境为Anaconda,本人安装的环境是3.5

2 JDK

https://www.oracle.com/technetwork/java/javase/downloads/index.html进入此网站下载JAVA

点击上图的download即可进入下载页面

根据自己的电脑是64或32位操作系统,选择自己合适的版本,我选择的是jdk-8u211-windows-x64,下载到指定的文件夹(我的是在D:\package),在此目录下新建个文件夹D:\package\java,在文件夹java下,再新建2个空的文件夹(如jdk,jre).

接下来电极jdk-8u211-windows-x64,直接安装就可以了,安装的路径选择D:\package\java\jdk,注意在安装过程中会提示安装jre文件,此时选择你新建的里一个文件夹(如D:\package\java\jre),等待安装成功就好。

环境配置,打开电脑控制面板-->高级系统设置-->环境变量

(1)在系统变量新建JAVA_HOME,变量值为你安装的jdk路径

 

(2)新建系统变量CLASSPATH,变量值   %JAVA_HOME%\lib

(3)在系统变量path中新建 %JAVA_HOME%\bin。

此刻java环境就已经配置完成了

 

打开cmd,输入java,出现如下就表示成功了,并没有报错。

3 scala

进入下载页面 https://www.scala-lang.org/download/2.12.8.html

 

选中红色标注的文件,下载至D:\package,直接解压就好,下面就进行环境设置就好

在系统变量中新建SCALA_HOME

在系统变量path路径,新建%SCALA_HOME%\bin

 

在cmd中,输入scala,出现如下就表明没问题

也可以输入scala -version(其他的安装也可以这样查看)

4 pyspark

进入pysaprk下载页面http://spark.apache.org/downloads.html

选择下载spark-2.4.3-bin-hadoop2.7,,下载☞D:\package这部分下载时间稍微久一点。下载晚才后,解压

在系统变量加入SPARK_HOME,变量值为你解压后的spark路径

在path中添加

%SPARK_HOME%\bin

%SPARK_HOME%\bin

 

在cmd中输入pyspark,出现下图即可

5 hadoop

hadoop配置和pyspark比较像,不过要注意一定要与spark版本匹配。

http://mirror.bit.edu.cn/apache/hadoop/common/

解压后,接下来有3步操作:

(1)配置环境

系统变量中新建SPARK_HOME,变量值为解压路径

在path路径中添加

%HADOOP_PATH%\bin

(2)准备winutils文件

winutils.exe文件,如果没有的话,我们需要去下载。 
winutils.exe下载地址https://github.com/steveloughran/winutils 

根据自己安装的hadoop版本下载对应的winutils.exe文件,下好后,将其复制到刚刚解压的hadoop文件夹的bin子文件夹下

(3)更改路径

打开及解压的hadoop文件夹下etc\hadoop文件夹(如D:\package\hadoop-2.7.7\etc\hadoop),打开hadoop-env文件,

 

将 set JAVA_HOME=此处为上述步骤2中安装好的jdk路径(如我的D:\package\java\jdk),须注意千万不要出现空格,不然会导致后面出现查询不到JAVA_HOME路径

此时在终端输入hadoop,出现如下图所示即成功

 

6 导入pyspark使用

本文主要基于jupyter notebook使用spark

 如果你已经将pip设置了系统环境的话,可以直接通过cmd,输入pip install findspark,安装成功即可

若是没有的话,那也没关系,打开Anaconda下的Anaconda Prompt,再输入pip install findspark。

打开notebook

输入

>> import findspark

>> findspark.init()

运行后输入

import pyspark即可查证受否安装成功。要是没有安装成功的话,那就多看看上面的安装步骤。

 

 

 

 

 

 

 

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值