window安装python3后怎么用pyspark_在本地运行pyspark

所以你可以在windows上用python和scala外壳来安装Spark,但需要注意的是,根据我的经验,windows的性能不如osx和linux。如果你想在windows上设置所有东西,我不久前写了一个简短的说明,你可以查看here。我正在粘贴下面的文本,以防我从该回购移动文件或链接由于其他原因中断。

下载并提取Spark

从apache下载最新版本的spark。

请注意,为您选择的spark版本获得正确的Hadoop二进制文件是非常重要的。请参阅下面关于Hadoop二进制文件的部分。

使用7-zip提取。

安装Java和Python

测试Java和Python

打开命令行并键入java -version。如果安装正确,您将看到如下输出:

java version "1.8.0_121"

Java(TM) SE Runtime Environment (build 1.8.0_121-b13)

Java HotSpot(TM) 64-Bit Server VM (build 25.121-b13, mixed mode)

键入python或python --version。

第一个将在显示版本信息后打开python shell。第二个将只显示与此类似的版本信息:

Python 3.5.2 :: Anaconda 4.2.0 (64-bit)

下载用于Windows 64位的Hadoop二进制文件

您可能没有在windows上安装Hadoop,但是spark将在其核心中深入查找这个文件和其他二进制文件。谢天谢地,Hadoop贡献者已经编译了这些代码,并且有一个带有Hadoop 2.6二进制文件的repository。这些二进制文件适用于spark版本2.0.2,但不适用于2.1.0。要使用spark 2.1.0,请从here下载二进制文件。

最好的策略是克隆repo并保持Hadoop文件夹与您的spark版本相对应,并将Hadoop-%version%文件夹添加到您的路径中作为HADOOP_HOME。

将Java和Spark添加到环境中

将java和spark的路径分别添加为环境变量java HOME和spark HOME。

测试pyspark

在命令行中,键入pyspark并观察输出。此时spark应该从python shell开始。

设置pyspark以使用Jupyter笔记本

pyspark代码中有使用python shells与pyspark交互的说明,可以通过编辑器进行访问。要在启动pyspark之前使用Jupyter笔记本,请键入以下两个命令:

set PYSPARK_DRIVER_PYTHON=jupyter

set PYSPARK_DRIVER_PYTHON_OPTS='notebook'

设置这些变量后,pyspark将在Jupyter笔记本中启动,默认的SparkContext初始化为sc,SparkSession初始化为spark。ProTip:打开http://127.0.0.1:4040以查看spark UI,其中包含关于您的管道和已完成进程的许多有用信息。任何额外的笔记本打开与火花运行将在连续端口,即4041,4042等。。。

jist认为,为您的spark版本获得正确版本的Hadoop二进制文件至关重要。其余的工作是确保路径和环境变量配置正确。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值