window安装python3后怎么用pyspark_在本地运行pyspark

最新推荐文章于 2024-06-26 20:48:19 发布

weixin_39547392

最新推荐文章于 2024-06-26 20:48:19 发布

阅读量470

点赞数

文章标签： window安装python3后怎么用pyspark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39547392/article/details/112958549

版权

所以你可以在windows上用python和scala外壳来安装Spark，但需要注意的是，根据我的经验，windows的性能不如osx和linux。如果你想在windows上设置所有东西，我不久前写了一个简短的说明，你可以查看here。我正在粘贴下面的文本，以防我从该回购移动文件或链接由于其他原因中断。

下载并提取Spark

从apache下载最新版本的spark。

请注意，为您选择的spark版本获得正确的Hadoop二进制文件是非常重要的。请参阅下面关于Hadoop二进制文件的部分。

使用7-zip提取。

安装Java和Python

测试Java和Python

打开命令行并键入java -version。如果安装正确，您将看到如下输出：

java version "1.8.0_121"

Java(TM) SE Runtime Environment (build 1.8.0_121-b13)

Java HotSpot(TM) 64-Bit Server VM (build 25.121-b13, mixed mode)

键入python或python --version。

第一个将在显示版本信息后打开python shell。第二个将只显示与此类似的版本信息：

Python 3.5.2 :: Anaconda 4.2.0 (64-bit)

下载用于Windows 64位的Hadoop二进制文件

您可能没有在windows上安装Hadoop，但是spark将在其核心中深入查找这个文件和其他二进制文件。谢天谢地，Hadoop贡献者已经编译了这些代码，并且有一个带有Hadoop 2.6二进制文件的repository。这些二进制文件适用于spark版本2.0.2，但不适用于2.1.0。要使用spark 2.1.0，请从here下载二进制文件。

最好的策略是克隆repo并保持Hadoop文件夹与您的spark版本相对应，并将Hadoop-%version%文件夹添加到您的路径中作为HADOOP_HOME。

将Java和Spark添加到环境中

将java和spark的路径分别添加为环境变量java HOME和spark HOME。

测试pyspark

在命令行中，键入pyspark并观察输出。此时spark应该从python shell开始。

设置pyspark以使用Jupyter笔记本

pyspark代码中有使用python shells与pyspark交互的说明，可以通过编辑器进行访问。要在启动pyspark之前使用Jupyter笔记本，请键入以下两个命令：

set PYSPARK_DRIVER_PYTHON=jupyter

set PYSPARK_DRIVER_PYTHON_OPTS='notebook'

设置这些变量后，pyspark将在Jupyter笔记本中启动，默认的SparkContext初始化为sc，SparkSession初始化为spark。ProTip：打开http://127.0.0.1:4040以查看spark UI，其中包含关于您的管道和已完成进程的许多有用信息。任何额外的笔记本打开与火花运行将在连续端口，即4041，4042等。。。

jist认为，为您的spark版本获得正确版本的Hadoop二进制文件至关重要。其余的工作是确保路径和环境变量配置正确。

weixin_39547392

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
window安装python3后怎么用pyspark_在本地运行pyspark

所以你可以在windows上用python和scala外壳来安装Spark，但需要注意的是，根据我的经验，windows的性能不如osx和linux。如果你想在windows上设置所有东西，我不久前写了一个简短的说明，你可以查看here。我正在粘贴下面的文本，以防我从该回购移动文件或链接由于其他原因中断。下载并提取Spark从apache下载最新版本的spark。请注意，为您选择的spark版本获...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。