本机安装PySpark3.2.0_python3.8

本机安装PySpark3.2.0__python3.8

相关需求

  1. 安装Anaconda
  2. 安装JDK
  3. 然后配置相关环境

pandas: 处理小规模数据集
Spark: 3.2.0以上结合了pandasAPI 大规模的数据集处理

1.JDK安装

在这里插入图片描述
1-1 直接默认安装,然后配置环境变量
在这里插入图片描述
在这里插入图片描述
1-2 点击path配置添加如下
在这里插入图片描述
在这里插入图片描述

win+r->cmd->java
javac
java -version #jdk版本
查看jdk是否配置成功

在这里插入图片描述

2.安装spark并配置相关环境变量

在这里插入图片描述
解压到指定目录即可。我的目录:D:\LenovoSoftstore\soft\spark-3.2.1-bin-hadoop3.2
在这里插入图片描述

# path添加
%SPARK_HOME %\bin

点击path->编辑-.新建->%SPARK_HOME %\bin
在这里插入图片描述
2-1 配置系统变量
在这里插入图片描述
在这里插入图片描述

#-----------------------1
PYSPARK_DEIVER_PYTHON_OPTS  notebook
#-----------------------2
PYSPARK_DEIVER_PYTHON       ipython
#-----------------------3
PYTHONPATH
%SPARK_HOME%\python\lib\py4j;%SPARK_HOME%\python\lib\pyspark

2-2 修改配置文件
在你的解压的文件路径目录conf下,复制文件spark-env.sh.template,修改文件名为spark-env.sh
在这里插入图片描述
修改配置文件spark-env.sh,在文件末尾添加以下代码:

#D:\LenovoSoftstore\soft\Anaconda是你anaconda 安装的目录
export PYSPARK_PYTHON=D:\LenovoSoftstore\soft\Anaconda
export PYSPARK_DRIVER_PYTHON=D:\LenovoSoftstore\soft\Anaconda
export PYSPARK_SUBMIT_ARGS='--master local[*]'
#local[*]  是利用所有的资源
#安装相关包,顺便把要用的一些pyhive,pymysql,jieba 都安上
pip install pyspark findspark pyhive  pymysql  jieba -i https://pypi.tuna.tsinghua.edu.cn/simple
3.相关文件下载已打包好

点击链接
相关文件提取码-mdp4

4.测试案例

在这里插入图片描述

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Elvis_hui

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值