python虚拟环境可以运行pyspark_PySpark环境搭建

PySpark环境搭建需要以下的安装包或者工具:

Anaconda

JDK1.8

hadoop2.6

hadooponwindows-master

spark2.0

py4j

pyspark扩展包

1、hadoop

这里不详细说明Anaconda、JDK的安装与配置过程,主要说明与spark相关内容,提供的安装包:

链接:https://pan.baidu.com/s/15NBgNWCGxIQ3tA_vLLMOww

提取码:sx81

下载后:

1137363-20200328193957000-933913164.png

将其进行解压,注意的是hadoop与spark这样的包无法在windows上进行运行,所以引入hadooponwindows-master包,首先我们需要对解压后的hadoop文件夹中的biN目录进行覆盖,使用hadooponwindows-master中的bin目录进行覆盖。

(1)拷贝

1137363-20200328194316631-888372750.png

将hadooponwindows-master中的bin目录进行拷贝。

(2)覆盖

1137363-20200328194426619-2043635668.png

将hadoop中的bin目录进行替换

(3)系统环境变量

这里不要忘记系统环境变量的配置

1137363-20200328200045254-1511577347.png

加入到path中:

1137363-20200328200128159-285291730.png

2、spark

spark需要配置一下系统环境变量,与上面基本一样:

1137363-20200328200304217-924957080.png

加入到path中:

1137363-20200328200343805-2084523528.png

3、py4j

利用anaconda新建一个虚拟环境:

conda create -n pyspark_study python=3.5.2

进入虚拟环境安装py4j包,它是用于Java与Python进行交互使用的包:

(pyspark_study) C:\Users\Administrator>conda install py4j

4、pyspark扩展包

在上述虚拟环境的sitepackage下新建pyspark.pth文件,里面写入spark中python的路径:

(1)查看spark路径

1137363-20200328195401351-1013323839.png

(2)安装pyspark扩展包

进入虚拟环境的sitepackage下新建pyspark.pth,并写入上述路径:

1137363-20200328195603559-288410560.png

写入路径:

I:\hadoop-pyspark\spark-2.0.2-bin-hadoop2.6\python

这样环境就配置好了,此时可以在cmd命令行窗口进行启动pyspark了。

4、启动pyspark

启动命令:

C:\Users\Administrator>pyspark

1137363-20200328195835620-1427424897.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值