Pycharm 上配置spark相关环境

spark的依赖环境比较多,需要Java JDK、hadoop的支持。 由于spark本身是用scala实现的,所以建议使用scala。如果是使用scala语言,需要 Scala2.11.x版本,hadoop最好安装2.6以上版本。

Scala2.11.x安装

官网网址:https://www.scala-lang.org/download/

下载得到Scala的msi文件后,可以双击执行安装。安装成功后,默认会将Scala的bin目录添加到PATH系统变量中去。

Spark的安装

官网网址:http://spark.apache.org/downloads.html

使用的是Pre-built的版本,意思就是已经编译了好了,下载来直接用就好,Spark也有源码可以下载,但是得自己去手动编译之后才能使用,并将将Spark的bin目录添加到系统变量PATH中。

HADOOP安装

官网:https://archive.apache.org/dist/hadoop/common/

添加了HADOOP_HOME系统变量,也可以用%HADOOP_HOME%\bin来指定bin文件夹路径名。这两个系统变量设置好后,开启一个新的cmd,然后直接输入spark-shell命令。

pycharm配置

1、打开pycharm,创建一个progect,设置run configuration,在环境变量中添加HADOOP_HOME,SPARK_HOME和PYTHONPATH 

2、安装pyspark 和py4j 

Py4j可以使运行于python解释器的python程序动态的访问java虚拟机中的java对象。Py4j也可以使java程序回调python对象。 

测试程序:

import os
import sys

# Path for spark source folder
os.environ['SPARK_HOME']="E:\spark-2.3.2-bin-hadoop2.7"

# Append pyspark to Python Path
sys.path.append("E:\spark-2.3.2-bin-hadoop2.7\python")

try:
from pyspark import SparkContext
from pyspark import SparkConf

print ("Successfully imported Spark Modules")

except ImportError as e:
print ("Can not import Spark Modules", e)
sys.exit(1)

安装过程中遇到的问题:

1、安装Hadoop过程中缺少winutils.exe的问题

根据自身的下载的Hadoop版本对应去下载相关联的winutils.exe和.dll文件

2、安装pyspark库后依旧出现找不到pyspark库的问题

在perferences中的project structure中点击右边的“add  content root”,添加py4j-some-version.zip和pyspark.zip的路径(这两个文件都在Spark中的python文件夹下)

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PyCharm是一款功能强大的Python集成开发环境(IDE),可以方便地配置和管理Spark运行环境。下面是配置PyCharmSpark的步骤: 1. 安装Java Development Kit(JDK):首先,确保你已经安装了JDK。你可以从Oracle官网下载并安装适合你操作系统的JDK版本。 2. 下载Spark:访问Apache Spark官网(https://spark.apache.org/downloads.html),选择适合你的Spark版本并下载。 3. 解压Spark:将下载的Spark压缩包解压到你想要安装的目录。 4. 配置环境变量:将Spark的bin目录添加到系统的环境变量中。在Windows系统中,可以在系统属性中的"高级系统设置"中设置环境变量;在Linux或Mac系统中,可以编辑.bashrc或.bash_profile文件,并添加以下行: ``` export SPARK_HOME=/path/to/spark export PATH=$SPARK_HOME/bin:$PATH ``` 5. 打开PyCharm:启动PyCharm,并创建一个新的Python项目。 6. 配置PyCharmSpark:在PyCharm的菜单栏中,选择"File" -> "Settings"。 7. 在设置窗口中,选择"Project" -> "Project Interpreter"。 8. 点击右上角的齿轮图标,选择"Add..."。 9. 在弹出的窗口中,选择"System Interpreter",然后点击"OK"。 10. 在解释器路径中,选择你的Python解释器。 11. 在"Environment variables"部分,点击"+"按钮添加一个新的环境变量。 12. 设置环境变量名为"PYSPARK_PYTHON",值为你的Python解释器的路径。 13. 点击"OK"保存设置。 现在,你已经成功配置PyCharmSpark的运行环境。你可以在PyCharm中编写和运行Spark应用程序了。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值