Pyspark环境安装配置(Anaconda3)--保姆级教程

提示:本文章主要帮助读者在 Windows 操作系统上搭建单机模式的 PySpark 开发环境

        本次环境安装包括:JDK-1.8+jre-1.8+Mysql-8.0+Anaconda3(2022.10)+hadoop-3.2.2+hive-3.1.1(具体环境版本可以有所出入),所有环境安装包均在下面的百度网盘链接。

本文所有环境安装包:
链接: https://pan.baidu.com/s/1df8mrXafdfBuIXWBkq2i1A?pwd=iu5c 提取码: iu5c

        PySpark 是基于 Spark 的强大数据处理引擎,结合了 Python 的易用性和 Spark 的高性能、分布式计算能力。它适合大规模数据处理、流式数据分析和机器学习任务,并广泛应用于数据工程、数据科学和商业分析中。      

二、JDK

        由于Hadoop和Hive基于JDK进行开发,所以在配置虚拟环境前需要安装64位Windows 系统下的 1.8 版本的 JDK。

1.JDK下载

读者可使用本文章所提供的jdk-8u281-windows-x64.exe(注:记住JDK的安装路径)。相关内容如下供读者参考:

参考文章:JDK安装配置教程(保姆级)-CSDN博客

JDK官网:JDK downloads

2.安装步骤

(1) 点击下一步进行傻瓜式安装

(2)选择安装目录,建议安装到D盘根目录D:\jdk-1.8\(路径不要有中文路径),点击下一步

(3)进度完成出现jre安装,jre安装路径与JDK保持一致,如D:\jre1.8,点击下一步。

(4)点击关闭,介绍JDK安装。

3.环境变量配置

(1)方法一:右键此电脑→点击属性→点击高级系统管理→点击环境变量

         方法二:同时按win+q打开搜索栏,在搜索栏内输入环境变量直接进入

(2)点击系统变量里的新建,输入下面内容:

变量名:JAVA_HOME

变量值:D:\jdk-1.8\      (刚刚JDK的安装地址)

(3)点击系统变量里的新建,新建classpath(步骤和刚才一样)。输入下面内容:

变量名:classpath

变量值:.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar  

(4)在系统变量中找到path,双击打开。

(5)点击依次新建,输入以下内容:

%JAVA_HOME%\bin
%JAVA_HOME%\jre\bin

4.完成测试

按住win+r,输入cmd,输入java -version,出现下图则安装完成。

三、MYSQL

        由于 Hive 通过 MySQL 提供元数据存储服务,所以在配置虚拟环境前需要安装 64 位 Windows 系统下的 8 版本 MySQL。

1.MYSQL下载

        读者可使用本文章所提供的mysql-installer-community-8.0.21.0.msi,相关内容如下供读者参考

参考文献:MySQL-8.0.21.0社区版安装教程-CSDN博客

MYSQL官网:MySQL

2.安装步骤

(1)点击自定义安装→next。

(2)选择所需的产品内容,将其出现在右边方框内,安装路径选择默认(更换路径有可能会报错)

(3)点击execvte,执行安装

安装完成点击next

(4)配置MYSQL。

(5)选择数据储存引擎

(6)选择配置类型和数据库连接方式。

(7)选择身份验证

第一个"Use Strong Password Encryption for Authentication" 密码加密验证更加安全;
第二个“Use Legacy Authentication Method” 可兼容MySQL5.x版本,兼容性好。

(8)设置账户密码,账户一般默认为Root,密码则为自己设置。

(9) 配置Windows服务--将MySQL Server 配置为Windows Service(与下图一致即可,开机自启自行选择进行设置)

(10)后面一直傻瓜式安装即可

3.环境变量配置

        打开环境变量界面和JDK环境配置方法一致

双击系统变量里的path,输入下面内容:

C:\Program Files\MySQL\MySQL Server 8.0\bin  (MYSQL的安装目录)

4.完成测试

按住win+r,输入cmd,输入mysql –u root –p,然后输入刚才所设置的MYSQL密码(再次提醒一点要记住自己设置的密码),出现下图则安装完成。

四、Anaconda3

        由于虚拟环境基于Anaconda3进行搭建,所以在配置虚拟环境前需要安装64位Windows 系统下的 Anaconda3(Anaconda3-5.2.0 及以上版本)。

1.Anaconda3下载

  读者可使用本文章所提供的Anaconda3-2020.11-Windows-x86_64.exe相关内容如下供读者参考

参考文献:Anaconda安装-超详细版(2023)_anaconda安装哪个版本好-CSDN博客

Aanaconda3官网:Aanaconda3 downloads

tip:我用的是Anaconda3-2022.10,版本只要满足要求即可。有需要可以去(安装地址)下载

2.安装步骤

(1)点击next,进行下一步。

(2)点击I Agree。

(3)这里要选择All Users (requires admin privileges),然后点Next >。

(4)这里建议选择除C盘外的安装路径(记住自己的安装地址),选择完后点击next>。

(5)这里勾选第二项。因为如果勾选第一项(“他会自动添加Anaconda至系统PATH环境变量。”),则将会影响其他程序(比如安装的更高版本的Python程序)的使用,后面我们在手动进行环境配置。

(6)后面安装可能需要等一段时间,安装完成后点击next>→finish,完成本次安装。

3.环境变量配置

打开环境变量界面和JDK环境配置方法一致

在系统变量中找到path,双击path,在path中点击新建,依次加入以下内容:

注意下面的D:\anaconda3更换成你自己的安装地址

D:\anaconda3
D:\anaconda3\Scripts
D:\anaconda3\Library\bin
D:\anaconda3\Library\mingw-w64\bin
D:\anaconda3\Library\usr\bin

最后点击确定,完成配置 

4.完成测试

按住win+r,输入cmd,输入conda --version,出现下图则安装完成。

五、Hadoop

 1.Hadoop安装

   将提供的“hadoop-3.2.2.rar”下载到本地,然后解压缩,建议解压缩的路径为 D 盘根目录

 2.文件配置

(1)首先在Hadoop文件中找到hadoop-env.cmd文件(如果找不到有可能你的电脑隐藏了后缀,那就直接找hadoop-env文件),右键点击编辑(用记事本打开)。

(2)在 hadoop-env.cmd中找到JAVA_HOME的路径(这一步需要大家耐心的去寻找),讲其路径改为你之前安装的JDK路径。

(3)在本文章给出的安装包中找到这两个文件,将这两个文件复制到C:\windows\System32中。

3.环境变量设置

打开环境变量界面和JDK环境配置方法一致

(1)在系统变量中点击新建,输入以下内容:

变量名:HADOOP_HOME

变量值:D:\hadoop-3.2.2\     (刚刚Hadoop的安装地址)

(2)在系统变量中找path,双击打开,点击新建,输入以下内容:

%HADOOP_HOME%\bin

4.完成测试

 按住win+r,输入cmd,输入hadoop,出现下图则安装完成。

六、 Hive

1.Hive安装

将提供的“hive-3.1.1.rar”下载到本地,然后解压缩,建议解压缩的路径为 D 盘根 目录。

 2.环境变量配置

打开环境变量界面和JDK环境配置方法一致

(1)在系统变量中点击新建,输入以下内容:

变量名:HIVE_HOME

变量值:D:\hive-3.1.1    (刚刚Hive的安装地址)

(2)在系统变量中找path,双击打开,点击新建,输入以下内容:

%HIVE_HOME%\bin

 

3.完成测试

 按住win+r,输入cmd,输入hive,出现下图则安装完成。

七、PySpark

1.文件配置

(1)读者将本文提供的pyspark.rar下载到本地。

(2)找到anaconda3安装目录中的envs(用于存放虚拟环境文件),将pyspark解压到该文件中。

2.环境变量配置

 (1)在系统变量中点击新建,输入以下内容:

变量名:SPARK_HOME

变量值:D:\anaconda3\envs\pyspark\Lib\site-packages\pyspark    

 (2)在系统变量中找path,双击打开,点击新建,输入以下内容:

%SPARK_HOME%\bin

3.PySpark运行测试

(1) 按住win+r,输入cmd,输入cd /d D:\code(进入项目代码所在的地址),然后输入activate pyspark进入pyspark虚拟环境,最后输入jupyter notebook进入编译环境。

(3)点击右上角new→python3(ipykernel),来新建一个python项目。输入下列代码:

import sys
print(sys.version)
print(sys.executable)

from pyspark.sql import SparkSession
spark = SparkSession.builder.enableHiveSupport().getOrCreate()
spark

出现下图结果即为成功 


总结

自此pyspark的环境搭建完毕,搭建过程较为繁琐,大家需要一些耐心来完成。最容易出错的地方为各部分的环境变量配置,少一个都可能使运行测试失败,有不懂的可以在评论区探讨。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值