pycharm利用pyspark远程连接spark集群

本文档记录了如何使用PyCharm和pyspark远程连接到Spark集群的过程,包括软件配置、Spark集群和本地环境的设置,以及解决遇到的Java gateway process错误。关键步骤包括在spark-env.sh中配置Python路径,确保所有节点Python版本一致,正确配置本地hosts文件以映射Master节点IP,以及在PyCharm中设置SPARK_HOME环境变量。
摘要由CSDN通过智能技术生成

0 背景

由于工作需要,利用spark完成机器学习。因此需要对spark集群进行操作。所以利用pycharm和pyspark远程连接spark集群。这里记录下遇到的问题及方法。
主要是参照下面的文献完成相应的内容,但是具体问题要具体分析。

1 方法

1.1 软件配置
spark2.3.3, hadoop2.6, python3
1.2 spark配置
Spark集群的每个节点的Python版本必须保持一致。在每个节点的$SPARK_HOME/conf/spark-env.sh中添加一行:具体看你的安装目录。

export PYSPARK_PYTHON=/home/hadoop/anaconda2/bin/python3

此步骤就是将python添加到spark的配置中。
此时,在服务器命令行输入pyspark时,可以正常进入spark。
1.3本地配置
1.3.1 首先将spark2.3.3从服务器拷贝到本地。
注意: 由于我集群安装的是spark-2.3.3-bin-without-hadoop。但是拷贝到本地后,总是报错Java gateway process… 。同时我将hadoop2.6,的包也从服务器拷贝到本地加载到程序中,同样报错。
最后,直接从spark的官网中,下载了spark-2.3.3-bin-hadoop2.6,这回就可以了。
pyspark的版本与spark的版本最好对应。比如pyspark2.3.3&

  • 2
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
PyCharm是一款流行的集成开发环境(IDE),用于Python开发,包括大数据处理和分析。如果你想要在PyCharm中使用Pyspark,首先你需要确保已经安装了Java(因为Pyspark依赖于JVM)。以下是下载并配置PyCharm以支持Pyspark的基本步骤: 1. **下载和安装Java**: - 访问Oracle官网(https://www.oracle.com/java/technologies/javase-jdk17-downloads.html)下载Java JDK 17或更高版本,并按照安装指南安装。 2. **下载PyCharm**: - 访问PyCharm官方网站(https://www.jetbrains.com/pycharm/download/),选择Community Edition(免费版)或Professional Edition(付费版),然后下载适合你的操作系统的安装包。 3. **安装PyCharm**: - 安装程序会引导你完成安装过程,记得勾选“Add PyCharm to PATH”以便在命令行中轻松访问。 4. **设置PyCharm Python Interpreter**: - 打开PyCharm,点击左上角的"Configure" -> "Project" -> "Interpreter",点击"+"号添加新的Python解释器。 - 在新窗口中,选择"System Interpreter",然后找到你刚刚安装的Python解释器路径(通常在`C:\PythonXX` 或 `~/anaconda3`),选择并添加。 5. **安装Pyspark** (如果尚未安装): - 如果你还没有Pyspark,可以通过pip安装: ``` pip install pyspark ``` - 或者,如果你使用的是Anaconda,可以在命令行中激活你的conda环境,然后安装: ``` conda activate your_anaconda_env conda install pyspark ``` 6. **配置PyCharm Pyspark支持**: - 在PyCharm中,打开或创建一个新的Python项目,点击右上角的"Run" -> "Edit Configurations" -> "Spark",点击"+"号,选择"Spark Application",配置Spark的主应用路径、主类和任何其他必要的参数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Great1414

整理不易,谢谢支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值