pycharm 配置 spark环境

文章详细介绍了如何一步步配置Spark开发环境,包括安装JDK和Hadoop,设置环境变量,安装Spark,特别强调了在Windows环境下配置winutils,以及在PyCharm中配置Spark环境,最后通过测试代码确认环境配置成功。
摘要由CSDN通过智能技术生成

1.安装好JDK

JDK所有人肯定都装了,这里就不细说明了。

2.安装Hadoop并配置环境变量:
hadoop下载地址:Index of /apache/hadoop/common


解压hadoop-2.8.3.tar.gz特定路径,如:D:\hadoop-2.8.3
添加系统变量HADOOP_HOME:D:\hadoop-2.8.3
在系统变量PATH中添加:D:\hadoop-2.8.3\bin
安装组件winutils:将winutils中对应的hadoop版本中的bin替换自己hadoop安装目录下的bin

3.Spark环境变量配置:

说明:spark是基于hadoop之上的,运行过程中会调用相关hadoop库,如果没配置相关hadoop运行环境,会提示相关出错信息,虽然也不影响运行。

下载对应hadoop版本的spark:Apache Download Mirrors。本人使用的是hadoop2.8.3版本,spark是spark-2.4.5-bin-hadoop2.7。可以使用


解压文件到:E:\dju_softwares\DSJ_gz\spark-2.4.5-bin-hadoop2.7
添加PATH值:E:\dju_softwares\DSJ_gz\spark-2.4.5-bin-hadoop2.7\bin
新建系统变量SPARK_HOME:E:\dju_softwares\DSJ_gz\spark-2.4.5-bin-hadoop2.7


5.在CMD中运行pyspark:

出现以下图说明安装配置正常

6.在pycharm中配置spark

打开PyCharm,创建一个Project。然后选择“Run” ->“Edit Configurations”–>点击+创建新的python Configurations

选择 “Environment variables” 增加SPARK_HOME目录与PYTHONPATH目录。

SPARK_HOME:Spark安装目录
PYTHONPATH:Spark安装目录下的Python目录下的lib下的py4j-0.10.7-src.zip

选择 File->setting->你的project->project structure

右上角Add content root添加:py4j-some-version.zip和pyspark.zip的路径,这两个文件都在spark-2.4.5-bin-hadoop2.7\python\lib文件夹中。

7.测试环境是否配置成功:

 
  1. import os

  2. import sys

  3. os.environ['SPARK_HOME'] = "D:\adasoftware\spark"

  4. sys.path.append("D:\adasoftware\spark\python")

  5. try:

  6. from pyspark import SparkContext

  7. from pyspark import SparkConf

  8. print("Successfully imported Spark Modules")

  9. except ImportError as e:

  10. print("Can not import Spark Modules", e)

  11. sys.exit(1)

运行代码提示成功导入模块,及spark环境搭建成功。 

版权声明:本文为csdnliu123原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

本文链接:PyCharm:Django框架搭建Spark开发环境_IT change the world的博客-CSDN博客

PyCharm是一款功能强大的Python集成开发环境(IDE),可以方便地配置和管理Spark运行环境。下面是配置PyCharmSpark的步骤: 1. 安装Java Development Kit(JDK):首先,确保你已经安装了JDK。你可以从Oracle官网下载并安装适合你操作系统的JDK版本。 2. 下载Spark:访问Apache Spark官网(https://spark.apache.org/downloads.html),选择适合你的Spark版本并下载。 3. 解压Spark:将下载的Spark压缩包解压到你想要安装的目录。 4. 配置环境变量:将Spark的bin目录添加到系统的环境变量中。在Windows系统中,可以在系统属性中的"高级系统设置"中设置环境变量;在Linux或Mac系统中,可以编辑.bashrc或.bash_profile文件,并添加以下行: ``` export SPARK_HOME=/path/to/spark export PATH=$SPARK_HOME/bin:$PATH ``` 5. 打开PyCharm:启动PyCharm,并创建一个新的Python项目。 6. 配置PyCharmSpark:在PyCharm的菜单栏中,选择"File" -> "Settings"。 7. 在设置窗口中,选择"Project" -> "Project Interpreter"。 8. 点击右上角的齿轮图标,选择"Add..."。 9. 在弹出的窗口中,选择"System Interpreter",然后点击"OK"。 10. 在解释器路径中,选择你的Python解释器。 11. 在"Environment variables"部分,点击"+"按钮添加一个新的环境变量。 12. 设置环境变量名为"PYSPARK_PYTHON",值为你的Python解释器的路径。 13. 点击"OK"保存设置。 现在,你已经成功配置PyCharmSpark的运行环境。你可以在PyCharm中编写和运行Spark应用程序了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值