在 window 上安装 pyspark 并使用( 集成 jupyter notebook)

参考了https://blog.csdn.net/m0_37937917/article/details/81159193

预装环境:

1、安装了Anaconda ,可以从清华镜像下载。

2、环境安装了java,版本要7以及更高版本

 

在前面的环境前提下

开始下载安装pyspark

 下载 Apache Spark ,访问 Apache Spark 官网下载

1、 选择一个 Spark 版本 (Choose a Spark release)

2、选择软件包类型 (Choose a package type)

3、点击下载

 

 

4、选择一个开始下载,只是镜像位置不一样而已,内容无差

 

 

 一般选择最新版本就行,也就是默认选择版本

ps:这边有个我直接下载好的,需要可以直接点击链接下载

 

5、将你下载得到的 spark-2.4.3-bin-hadoop2.7.tgz 解压,得到 spark-2.4.3-bin-hadoop2.7

我这边下载下来的文件名是这样的,根据实际为准。

 将解压下来的 spark-2.4.3-bin-hadoop2.7 文件夹放到你想放的位置,我这边是 E:\MyDownloads\pyspark

6 . 从链接下载 winutils.exe 并放到你电脑中的 spark-2.4.3-bin-hadoop2.7\bin 文件夹下。

winutils.exe 是用来在windows环境下模拟文件操作的。

7、修改环境变量

添加以下变量到你的环境变量:

    变量名                        变量值

  • SPARK_HOME        spark-2.4.3-bin-hadoop2.7

    HADOOP_HOME        spark-2.4.3-bin-hadoop2.7

    PYSPARK_DRIVER_PYTHON        jupyter

    PYSPARK_DRIVER_PYTHON_OPTS         notebook

      •  
  • 添加    ;E:\MyDownloads\pyspark\spark-2.4.3-bin-hadoop2.7\bin   到 PATH ps:这里的路径以你的实际为准

   此时安装已经基本完成了


8 、打开 cmd,输入命令行 spark-shell ,看到如下字样,说明安装成功

 

pyspark 案例实验一下

 打开cmd ,输入  jupyter notebook 启动

 

新建个python文件,然后

输入以下代码,点运行

 代码:

import os
import sys
spark_name = os.environ.get('SPARK_HOME',None)
if not spark_name:
    raise ValueErrorError('spark环境没有配置好')

  接着输入以下代码,点运行

sys.path.insert(0,os.path.join(spark_name,'python'))
sys.path.insert(0,os.path.join(spark_name,'python/lib/py4j-0.10.7-src.zip'))
exec(open(os.path.join(spark_name,'python/pyspark/shell.py')).read())

  

 

 

这样说明pyspark引入成功了!

报错处理:

如果出现 无法加载 pyspark ,提示错误:No module named 'pyspark' 。

原因是: Anaconda 的环境变量中没有加入 pyspark 。

解决方案:将目录 spark-2.4.3-bin-hadoop2.7\python 中 spark 文件夹复制放入目录 Anaconda3\Lib\site-packages 中。(你安装Anaconda的地方)

创建RDD实例试验

myRDD = sc.parallelize(range(6), 3)
print(myRDD.collect())
print(myRDD.count())

  

 自此,安装pyspark 成功结束,欢迎指教,欢迎交流讨论

 

 

 

 

 

转载于:https://www.cnblogs.com/Alear/p/11413091.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
安装Jupyter NotebookWindows上有两种主要的方式。第一种是通过安装Anaconda来解决Jupyter Notebook安装问题。你可以从官网下载Anaconda,并按照官方的指示进行安装。在安装Anaconda时,Jupyter Notebook会自动被安装。第二种方式是使用pip进行安装。如果你已经安装了Python,可以打开命令行窗口并输入"pip install jupyter notebook"进行安装安装完成后,你可以在命令行窗口中输入"jupyter notebook"来启动Jupyter Notebook。如果你想安装插件,可以使用命令"pip install jupyter_contrib_nbextensions & jupyter contrib nbextension install"进行安装。 然而,在Windows上可能会遇到Jupyter Notebook无法自动打开浏览器的问题。要解决这个问题,你可以按照以下步骤进行操作:首先,打开命令行窗口,并输入"jupyter notebook --generate-config"命令,这会在用户目录下生成一个名为"jupyter_notebook_config.py"的配置文件。接着,打开该配置文件,并添加以下代码:import webbrowser webbrowser.register('firefox',None,webbrowser.GenericBrowser(u'D:\\新建浏览器下载\\firefox.exe')) c.NotebookApp.browser = 'firefox',其中的路径需要根据你使用的浏览器进行修改。最后,保存配置文件并关闭。这样,当你启动Jupyter Notebook时,它将会在指定的浏览器中打开。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [Jupyter Notebook安装Windows)](https://blog.csdn.net/NickHan_cs/article/details/108204297)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [windows 安装jupyter notebook](https://blog.csdn.net/m0_52118763/article/details/119612994)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值