Pyspark环境配置（Anaconda3）--保姆级教程

超绝唐老鸭

已于 2024-10-08 11:15:55 修改

阅读量2.8k

点赞数 30

分类专栏： Pyspark大数据分析与应用文章标签： python spark 分布式 conda jdk mysql hive

于 2024-10-06 12:20:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74545293/article/details/142711547

版权

Pyspark大数据分析与应用专栏收录该内容

1 篇文章

订阅专栏

提示：本文章主要帮助读者在 Windows 操作系统上搭建单机模式的 PySpark 开发环境

文章目录

3.环境变量配置

3.环境变量配置

四、Anaconda3

1.Anaconda3下载

3.环境变量配置

3.环境变量设置

2.环境变量配置

2.环境变量配置

3.PySpark运行测试

一、前言

本次环境安装包括：JDK-1.8+jre-1.8+Mysql-8.0+Anaconda3(2022.10)+hadoop-3.2.2+hive-3.1.1（具体环境版本可以有所出入），所有环境安装包均在下面的百度网盘链接。

本文所有环境安装包：
链接: https://pan.baidu.com/s/1df8mrXafdfBuIXWBkq2i1A?pwd=iu5c 提取码: iu5c

PySpark 是基于 Spark 的强大数据处理引擎，结合了 Python 的易用性和 Spark 的高性能、分布式计算能力。它适合大规模数据处理、流式数据分析和机器学习任务，并广泛应用于数据工程、数据科学和商业分析中。

二、JDK

由于Hadoop和Hive基于JDK进行开发，所以在配置虚拟环境前需要安装64位Windows 系统下的 1.8 版本的 JDK。

1.JDK下载

读者可使用本文章所提供的jdk-8u281-windows-x64.exe（注：记住JDK的安装路径）。相关内容如下供读者参考：

参考文章：JDK安装配置教程(保姆级)-CSDN博客

JDK官网：JDK downloads

2.安装步骤

（1）点击下一步进行傻瓜式安装

（2）选择安装目录，建议安装到D盘根目录D:\jdk-1.8\（路径不要有中文路径），点击下一步

（3）进度完成出现jre安装，jre安装路径与JDK保持一致，如D:\jre1.8，点击下一步。

（4）点击关闭，介绍JDK安装。

3.环境变量配置

（1）方法一：右键此电脑→点击属性→点击高级系统管理→点击环境变量

方法二：同时按win+q打开搜索栏,在搜索栏内输入环境变量直接进入

（2）点击系统变量里的新建，输入下面内容：

变量名：JAVA_HOME

变量值：D:\jdk-1.8\ （刚刚JDK的安装地址）

（3）点击系统变量里的新建，新建classpath(步骤和刚才一样)。输入下面内容：

变量名：classpath

变量值：.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar

（4）在系统变量中找到path，双击打开。

（5）点击依次新建，输入以下内容：

%JAVA_HOME%\bin
%JAVA_HOME%\jre\bin

4.完成测试

按住win＋r,输入cmd,输入java -version，出现下图则安装完成。

三、MYSQL

由于 Hive 通过 MySQL 提供元数据存储服务，所以在配置虚拟环境前需要安装 64 位 Windows 系统下的 8 版本 MySQL。

1.MYSQL下载

读者可使用本文章所提供的mysql-installer-community-8.0.21.0.msi，相关内容如下供读者参考：

参考文献：MySQL-8.0.21.0社区版安装教程-CSDN博客

MYSQL官网：MySQL

2.安装步骤

(1)点击自定义安装→next。

（2）选择所需的产品内容，将其出现在右边方框内，安装路径选择默认(更换路径有可能会报错)

（3）点击execvte,执行安装

安装完成点击next

(4)配置MYSQL。

（5）选择数据储存引擎

(6)选择配置类型和数据库连接方式。

(7)选择身份验证

第一个"Use Strong Password Encryption for Authentication" 密码加密验证更加安全；
第二个“Use Legacy Authentication Method” 可兼容MySQL5.x版本，兼容性好。

（8）设置账户密码，账户一般默认为Root，密码则为自己设置。

（9）配置Windows服务--将MySQL Server 配置为Windows Service（与下图一致即可，开机自启自行选择进行设置）

（10）后面一直傻瓜式安装即可

3.环境变量配置

打开环境变量界面和JDK环境配置方法一致

双击系统变量里的path，输入下面内容：

C:\Program Files\MySQL\MySQL Server 8.0\bin （MYSQL的安装目录）

4.完成测试

按住win＋r,输入cmd,输入mysql –u root –p，然后输入刚才所设置的MYSQL密码（再次提醒一点要记住自己设置的密码），出现下图则安装完成。

四、Anaconda3

由于虚拟环境基于Anaconda3进行搭建，所以在配置虚拟环境前需要安装64位Windows 系统下的 Anaconda3（Anaconda3-5.2.0 及以上版本）。

1.Anaconda3下载

读者可使用本文章所提供的Anaconda3-2020.11-Windows-x86_64.exe，相关内容如下供读者参考：

参考文献：Anaconda安装-超详细版(2023)_anaconda安装哪个版本好-CSDN博客

Aanaconda3官网：Aanaconda3 downloads

tip:我用的是Anaconda3-2022.10，版本只要满足要求即可。有需要可以去（安装地址）下载

2.安装步骤

（1）点击next,进行下一步。

（2）点击I Agree。

（3）这里要选择All Users (requires admin privileges)，然后点Next >。

（4）这里建议选择除C盘外的安装路径（记住自己的安装地址），选择完后点击next>。

（5）这里勾选第二项。因为如果勾选第一项（“他会自动添加Anaconda至系统PATH环境变量。”），则将会影响其他程序（比如安装的更高版本的Python程序）的使用，后面我们在手动进行环境配置。

（6）后面安装可能需要等一段时间，安装完成后点击next>→finish，完成本次安装。

3.环境变量配置

打开环境变量界面和JDK环境配置方法一致

在系统变量中找到path,双击path，在path中点击新建，依次加入以下内容：

注意下面的D:\anaconda3更换成你自己的安装地址

D:\anaconda3
D:\anaconda3\Scripts
D:\anaconda3\Library\bin
D:\anaconda3\Library\mingw-w64\bin
D:\anaconda3\Library\usr\bin

最后点击确定，完成配置

4.完成测试

按住win＋r,输入cmd,输入conda --version，出现下图则安装完成。

五、Hadoop

1.Hadoop安装

将提供的“hadoop-3.2.2.rar”下载到本地，然后解压缩，建议解压缩的路径为 D 盘根目录

2.文件配置

（1）首先在Hadoop文件中找到hadoop-env.cmd文件（如果找不到有可能你的电脑隐藏了后缀，那就直接找hadoop-env文件），右键点击编辑（用记事本打开）。

（2）在 hadoop-env.cmd中找到JAVA_HOME的路径（这一步需要大家耐心的去寻找），讲其路径改为你之前安装的JDK路径。

（3）在本文章给出的安装包中找到这两个文件，将这两个文件复制到C:\windows\System32中。

3.环境变量设置

打开环境变量界面和JDK环境配置方法一致

（1）在系统变量中点击新建，输入以下内容：

变量名：HADOOP_HOME

变量值：D:\hadoop-3.2.2\ （刚刚Hadoop的安装地址）

(2)在系统变量中找path，双击打开，点击新建，输入以下内容：

%HADOOP_HOME%\bin

4.完成测试

按住win＋r,输入cmd,输入hadoop，出现下图则安装完成。

六、 Hive

1.Hive安装

将提供的“hive-3.1.1.rar”下载到本地，然后解压缩，建议解压缩的路径为 D 盘根目录。

2.环境变量配置

打开环境变量界面和JDK环境配置方法一致

（1）在系统变量中点击新建，输入以下内容：

变量名：HIVE_HOME

变量值：D:\hive-3.1.1 （刚刚Hive的安装地址）

(2)在系统变量中找path，双击打开，点击新建，输入以下内容：

%HIVE_HOME%\bin

3.完成测试

按住win＋r,输入cmd,输入hive，出现下图则安装完成。

七、PySpark

1.文件配置

（1）读者将本文提供的pyspark.rar下载到本地。

（2）找到anaconda3安装目录中的envs（用于存放虚拟环境文件），将pyspark解压到该文件中。

2.环境变量配置

（1）在系统变量中点击新建，输入以下内容：

变量名：SPARK_HOME

变量值：D:\anaconda3\envs\pyspark\Lib\site-packages\pyspark

(2)在系统变量中找path，双击打开，点击新建，输入以下内容：

%SPARK_HOME%\bin

3.PySpark运行测试

(1) 按住win＋r,输入cmd,输入cd /d D:\code(进入项目代码所在的地址)，然后输入activate pyspark进入pyspark虚拟环境，最后输入jupyter notebook进入编译环境。

（3）点击右上角new→python3(ipykernel)，来新建一个python项目。输入下列代码：

import sys
print(sys.version)
print(sys.executable)

from pyspark.sql import SparkSession
spark = SparkSession.builder.enableHiveSupport().getOrCreate()
spark

出现下图结果即为成功

总结

自此pyspark的环境搭建完毕，搭建过程较为繁琐，大家需要一些耐心来完成。最容易出错的地方为各部分的环境变量配置，少一个都可能使运行测试失败，有不懂的可以在评论区探讨。

超绝唐老鸭

博客等级

码龄3年

1
原创

30
点赞

49
收藏

355
粉丝

关注

私信

热门文章

Pyspark环境配置（Anaconda3）--保姆级教程 2842

分类专栏

Pyspark大数据分析与应用 1篇

最新评论

Pyspark环境配置（Anaconda3）--保姆级教程
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/619348974。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。