本机安装PySpark3.2.0__python3.8
相关需求
- 安装Anaconda
- 安装JDK
- 然后配置相关环境
pandas: 处理小规模数据集
Spark: 3.2.0以上结合了pandasAPI 大规模的数据集处理
1.JDK安装
1-1 直接默认安装,然后配置环境变量
1-2 点击path配置添加如下
win+r->cmd->java
javac
java -version #jdk版本
查看jdk是否配置成功
2.安装spark并配置相关环境变量
解压到指定目录即可。我的目录:D:\LenovoSoftstore\soft\spark-3.2.1-bin-hadoop3.2
# path添加
%SPARK_HOME %\bin
点击path->编辑-.新建->%SPARK_HOME %\bin
2-1 配置系统变量
#-----------------------1
PYSPARK_DEIVER_PYTHON_OPTS notebook
#-----------------------2
PYSPARK_DEIVER_PYTHON ipython
#-----------------------3
PYTHONPATH
%SPARK_HOME%\python\lib\py4j;%SPARK_HOME%\python\lib\pyspark
2-2 修改配置文件
在你的解压的文件路径目录conf下,复制文件spark-env.sh.template,修改文件名为spark-env.sh。
修改配置文件spark-env.sh,在文件末尾添加以下代码:
#D:\LenovoSoftstore\soft\Anaconda是你anaconda 安装的目录
export PYSPARK_PYTHON=D:\LenovoSoftstore\soft\Anaconda
export PYSPARK_DRIVER_PYTHON=D:\LenovoSoftstore\soft\Anaconda
export PYSPARK_SUBMIT_ARGS='--master local[*]'
#local[*] 是利用所有的资源
#安装相关包,顺便把要用的一些pyhive,pymysql,jieba 都安上
pip install pyspark findspark pyhive pymysql jieba -i https://pypi.tuna.tsinghua.edu.cn/simple
3.相关文件下载已打包好
点击链接
相关文件提取码-mdp4