windows环境配置pyspark+hadoop

最新推荐文章于 2024-06-30 07:15:00 发布

orange_xiaoyueyue

最新推荐文章于 2024-06-30 07:15:00 发布

阅读量960

点赞数

文章标签： pyspark安装 hadoop windows

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/orange_xiaoyueyue/article/details/93201044

版权

最近再windows环境下安装pysaprk环境，就将安装步骤记录下来

配置过程如下：

Python

JAVA(JHK)

Spark

Scala

Hadoop

个人意见最好是将需要安装的都放在一个文件夹中，我就是在安装在D:\package

1 Python

使用的是python环境为Anaconda，本人安装的环境是3.5

2 JDK

https://www.oracle.com/technetwork/java/javase/downloads/index.html进入此网站下载JAVA

点击上图的download即可进入下载页面

根据自己的电脑是64或32位操作系统，选择自己合适的版本，我选择的是jdk-8u211-windows-x64，下载到指定的文件夹（我的是在D:\package），在此目录下新建个文件夹D:\package\java,在文件夹java下，再新建2个空的文件夹（如jdk,jre）.

接下来电极jdk-8u211-windows-x64，直接安装就可以了，安装的路径选择D:\package\java\jdk,注意在安装过程中会提示安装jre文件，此时选择你新建的里一个文件夹（如D:\package\java\jre），等待安装成功就好。

环境配置，打开电脑控制面板-->高级系统设置-->环境变量

(1)在系统变量新建JAVA_HOME,变量值为你安装的jdk路径

(2)新建系统变量CLASSPATH，变量值 %JAVA_HOME%\lib

(3)在系统变量path中新建 %JAVA_HOME%\bin。

此刻java环境就已经配置完成了

打开cmd，输入java，出现如下就表示成功了，并没有报错。

3 scala

进入下载页面 https://www.scala-lang.org/download/2.12.8.html

选中红色标注的文件，下载至D:\package，直接解压就好，下面就进行环境设置就好

在系统变量中新建SCALA_HOME

在系统变量path路径，新建%SCALA_HOME%\bin

在cmd中，输入scala，出现如下就表明没问题

也可以输入scala -version（其他的安装也可以这样查看)

4 pyspark

进入pysaprk下载页面http://spark.apache.org/downloads.html

选择下载spark-2.4.3-bin-hadoop2.7，，下载☞D:\package这部分下载时间稍微久一点。下载晚才后，解压

在系统变量加入SPARK_HOME，变量值为你解压后的spark路径

在path中添加

%SPARK_HOME%\bin

%SPARK_HOME%\bin

在cmd中输入pyspark，出现下图即可

5 hadoop

hadoop配置和pyspark比较像，不过要注意一定要与spark版本匹配。

http://mirror.bit.edu.cn/apache/hadoop/common/

解压后，接下来有3步操作：

（1）配置环境

系统变量中新建SPARK_HOME，变量值为解压路径

在path路径中添加

%HADOOP_PATH%\bin

（2）准备winutils文件

winutils.exe文件，如果没有的话，我们需要去下载。
winutils.exe下载地址https://github.com/steveloughran/winutils

根据自己安装的hadoop版本下载对应的winutils.exe文件，下好后，将其复制到刚刚解压的hadoop文件夹的bin子文件夹下

（3）更改路径

打开及解压的hadoop文件夹下etc\hadoop文件夹(如D:\package\hadoop-2.7.7\etc\hadoop),打开hadoop-env文件，

将 set JAVA_HOME=此处为上述步骤2中安装好的jdk路径(如我的D:\package\java\jdk)，须注意千万不要出现空格，不然会导致后面出现查询不到JAVA_HOME路径

此时在终端输入hadoop，出现如下图所示即成功

6 导入pyspark使用

本文主要基于jupyter notebook使用spark

如果你已经将pip设置了系统环境的话，可以直接通过cmd，输入pip install findspark，安装成功即可

若是没有的话，那也没关系，打开Anaconda下的Anaconda Prompt，再输入pip install findspark。

打开notebook

输入

>> import findspark

>> findspark.init()

运行后输入

import pyspark即可查证受否安装成功。要是没有安装成功的话，那就多看看上面的安装步骤。

orange_xiaoyueyue

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。