本机安装PySpark3.2.0_python3.8

最新推荐文章于 2024-06-30 07:15:00 发布

Elvis_hui

最新推荐文章于 2024-06-30 07:15:00 发布

阅读量2.7k

点赞数 1

分类专栏： PySpark 文章标签： python 机器学习深度学习

本文链接：https://blog.csdn.net/Elvis__c/article/details/123351716

版权

PySpark 专栏收录该内容

11 篇文章 2 订阅

订阅专栏

本机安装PySpark3.2.0__python3.8

相关需求

安装Anaconda
安装JDK
然后配置相关环境

pandas： 处理小规模数据集
Spark： 3.2.0以上结合了pandasAPI 大规模的数据集处理

1.JDK安装

在这里插入图片描述
1-1 直接默认安装，然后配置环境变量

1-2 点击path配置添加如下

win+r->cmd->java
javac
java -version #jdk版本
查看jdk是否配置成功

在这里插入图片描述

2.安装spark并配置相关环境变量

在这里插入图片描述
解压到指定目录即可。我的目录：D:\LenovoSoftstore\soft\spark-3.2.1-bin-hadoop3.2

# path添加
%SPARK_HOME %\bin

点击path->编辑-.新建->%SPARK_HOME %\bin
在这里插入图片描述
2-1 配置系统变量

#-----------------------1
PYSPARK_DEIVER_PYTHON_OPTS  notebook
#-----------------------2
PYSPARK_DEIVER_PYTHON       ipython
#-----------------------3
PYTHONPATH
%SPARK_HOME%\python\lib\py4j;%SPARK_HOME%\python\lib\pyspark

2-2 修改配置文件
在你的解压的文件路径目录conf下，复制文件spark-env.sh.template，修改文件名为spark-env.sh。
在这里插入图片描述
修改配置文件spark-env.sh，在文件末尾添加以下代码：

#D:\LenovoSoftstore\soft\Anaconda是你anaconda 安装的目录
export PYSPARK_PYTHON=D:\LenovoSoftstore\soft\Anaconda
export PYSPARK_DRIVER_PYTHON=D:\LenovoSoftstore\soft\Anaconda
export PYSPARK_SUBMIT_ARGS='--master local[*]'
#local[*]  是利用所有的资源

#安装相关包，顺便把要用的一些pyhive,pymysql,jieba 都安上
pip install pyspark findspark pyhive  pymysql  jieba -i https://pypi.tuna.tsinghua.edu.cn/simple

3.相关文件下载已打包好

点击链接
相关文件提取码-mdp4

4.测试案例

在这里插入图片描述

Elvis_hui

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
7
评论
本机安装PySpark3.2.0_python3.8

本机安装PySpark3.2.0__python3.8相关需求安装Anaconda安装JDK然后配置相关环境pandas：处理小规模数据集Spark： 3.2.0以上结合了pandasAPI 大规模的数据集处理1.JDK安装1-1 直接默认安装，然后配置环境变量1-2 点击path配置添加如下win+r->cmd->javajavacjava -version #jdk版本查看jdk是否配置成功2.安装spark并配置相关环境变量解压到指定目录
复制链接

扫一扫