Pyspark配置安装以及在jupyter中交互+常见报错（Py4JError: org.apache.spark.api.python.PythonUtils....）解决

最新推荐文章于 2024-05-03 11:52:09 发布

Demonslzh6

最新推荐文章于 2024-05-03 11:52:09 发布

阅读量5.9k

点赞数 6

分类专栏：大数据文章标签： spark 大数据 python

本文链接：https://blog.csdn.net/Demonslzh/article/details/107547626

版权

大数据专栏收录该内容

3 篇文章 1 订阅

订阅专栏

文章目录

在这里并不详细讲述spark的安装过程，默认已经配置完毕
首先第一步是安装pyspark，直接使用pip安装
在使用之前要确保SPARK_HOME环境变量已经配置好
接着启动pyspark有两种方法

方法一：命令行启动

首先启动spark,在命令行中输入以下命令，这样就能直接在jupyter中编辑环境变量了。

pyspark --master spark://127.0.0.1:7077 --num-executors 1 --total-executors-cores 1 --executor-memory 512m
PYSPARK_DRIVER_PYTHON=ipython 
PYSPARK_DRIVER_PYTHON_OPTS='notebook' pyspark

使用这种方法可以在jupyter中编写，sc对象已经内置就不需要再import了

方法二：使用findspark

插入一句废话：要使用findspark记得先 pip install findspark。
那么在编写代码前首先写下以下两句

import findspark
findspark.init()

实例代码

在这里插入图片描述

常见报错解决

1、如果是在findspark.init()报错的话那么一般是没有设置SPARK_HOME环境变量，记得正确配置。
2、Py4JError:org.apache.spark.api.python.PythonUtils.isEncryptionEnabled does not exist in the JVM这个问题困扰了我很长时间，如果在jdk、spark、Hadoop都已正确配置的前提下（正确配置的前提是可以在命令行中启动spark-shell），那么问题就出在pyspark的版本问题上。我的解决方案是回退pyspark的版本到2.3.2
分别输入以下命令即可

pip uninstall pyspark
pip install pyspark==2.3.2

想看更多？

想看更多内容可以关注以下公众号

在这里插入图片描述

Demonslzh6

关注

6
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录