pyspark学习笔记: 一些环境配置问题

最新推荐文章于 2024-06-30 07:15:00 发布

Never-Giveup

最新推荐文章于 2024-06-30 07:15:00 发布

阅读量1.1w

点赞数 5

分类专栏：大数据PySpark学习笔记文章标签： pyspark 环境配置

本文链接：https://blog.csdn.net/qq_36653505/article/details/85561882

版权

本文详细介绍了PySpark的环境配置，包括在spark-env.sh中添加配置信息以连接HDFS，更新.bashrc文件以设置环境变量，以及解决PyCharm和Jupyter中使用PySpark遇到的问题。特别地，对于PyCharm，需要确保PYSPARK_PYTHON指向正确的Python解释器，并可能需要设置driver和worker的Python环境。在Jupyter中，通过修改环境变量可以使用Anaconda的jupyter-notebook运行PySpark程序。

摘要由CSDN通过智能技术生成

使用pyspark一些环境配置问题

基本配置

安装spark后，还需要修改Spark的配置文件spark-env.sh

cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh

编辑spark-env.sh文件(vim ./conf/spark-env.sh)，在第一行添加以下配置信息:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

有了上面的配置信息以后，Spark就可以把数据存储到Hadoop分布式文件系统HDFS中，也可以从HDFS中读取数据。
如果没有配置上面信息，Spark就只能读写本地数据，无法读写HDFS数据。

然后通过如下命令，修改环境变量

vim ~/.bashrc

在.bashrc文件中添加如下内容

export JAVA_HOME=/usr/lib/jvm/default-java
export HADOOP_HOME=/usr/local/hadoop
export SPARK_HOME=/usr/local/spark
export PYTHONPATH=$SPARK_HOME

最低0.47元/天解锁文章

Never-Giveup

关注

5
点赞
踩
12

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录