01_windows10配置spark与pyspark

雪龙无敌

已于 2022-05-30 22:23:35 修改

阅读量1.2k

点赞数 1

分类专栏： Python_hadoop_spark环境文章标签： spark hadoop big data

于 2022-05-15 17:01:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012338969/article/details/124783285

版权

Python_hadoop_spark环境专栏收录该内容

4 篇文章 0 订阅

订阅专栏

最近重新装了系统，需要对spark与pyspark重新配置下。于是写了这篇文章，希望对从事这个行业的人员能有所帮助：
01_windows10配置spark与pyspark
02_jupyterLab_windows设置pyspark
03_jupyternotebook_windows设置pyspark

1.准备阶段

准备以下版本的安装包，不同的版本号之间会发生兼容性问题，如果采用版本以下不一致，建议看完本文再动手，有些本人已经踩过坑，会在下文提示。
1.Anaconda3-2021.11-Windows-x86_64
2.jdk-8u40-windows-x64
3.hadoop-3.2.2.tar.gz
4.scala-2.12.15
5.spark-3.1.3-bin-hadoop3.2.tgz
6.winutils来源于hadoop-3.2.2或者hadoop-3.2.1
整理安装包放在文章《windows10配置spark与pyspark》安装包01 与文章《windows10配置spark与pyspark》安装包02

2.Anaconda3 安装

2.1 用户选择

这里选择为所有用户安装
在这里插入图片描述

2.2 安装路径

不要放在C盘，接下来几个文件的安装需要一定的空间，多数人的电脑C盘不够大在这里插入图片描述
我安装在H盘，建立一个文件架子

2.3 环境变量和版本号

在这里插入图片描述
这里两个地方都打√，上边是添加环境变量，这样就省去了添加环境变量的麻烦；下边是让anaconda设置为Python3。勾选完，我们点install安装吧。

2.4 测试

安装我完，我们测试一下安装结果，找到运行，输入cmd.
在这里插入图片描述

3.Java 安装

3.1安装内容和路径

a.安装内容选择开发者具
b.推荐修改java 安装路径，点击下图中的更爱…选择自定义的安装路径，若无需修改，next即可。
在这里插入图片描述我的安装路径如下：

3.2 配置环境变量

计算机→系统属性→相关设置→⾼级系统设置→⾼级→环境变量，在系统变量中配置。

在这里插入图片描述

找到上面环境变量路径后添加JAVA_HOME路径

添加path路径

3.3 测试

cmd 命令行窗口输入 java
在这里插入图片描述 cmd 命令行窗口输入 java -version

cmd 命令行窗口输入 javac

4.scala 安装

4.1 选型与路径修改

选择第一个，安装路径建议修改：
在这里插入图片描述
我的安装路径如下：

4.2 环境变量配置

参考java环境变量配置：
SCALA_HOME配置
在这里插入图片描述
path配置

5.hadoop配置

5.1 文件加压缩和位置放置

对hadoop-3.2.2.tar.gz进行两次解压缩，第一次解压后有文件hadoop-3.2.2.tar，再次解压缩后如下图：

注意：hadoop-3.2.2解压后放在盘的根目录下，如下如文件夹hadoop-3.2.2与H盘之间没有经过文件夹

在这里插入图片描述

5.2 Hadoop环境变量配置

step01.HADOOP_HOME配置

在这里插入图片描述

step02.path配置

在这里插入图片描述

6.SPARK配置

6.1 文件加压缩和位置放置

对spark-3.1.3-bin-hadoop3.2.tgz进行解压缩，再次解压缩后如下图：

注意：对spark-3.1.3-bin-hadoop3.2解压后放在盘的根目录下，如下如文件夹对spark-3.1.3-bin-hadoop3.2与H盘之间没有经过文件夹

在这里插入图片描述

6.2 SPARK环境变量配置

step01.SPARK_HOME配置

step02.path配置

在这里插入图片描述

7.pyspark 配置

1.安装pyspark
cmd 命令行输入以下：
pip install pyspark - i https://pypi.tuna.tsinghua.edu.cn/simple

2.替换pyspark
将spark-3.1.3-bin-hadoop3.2\python下的pyspark拷贝到
Anaconda3\Lib\site-packages，替换Anaconda3\Lib\site-packages的pyspark
在这里插入图片描述
本人先将Anaconda3\Lib\site-packages的pyspark重名为pyspark01，然后拷贝spark-3.1.3-bin-hadoop3.2\python下的pysparkpyspark

8.配置winutils

将winutils.exe 拷贝到 hadoop-3.2.2\bin目录下：
在这里插入图片描述

9.检验配置结果

9.1 检验pyspark

cmd 命令行窗口输入pyspark
在这里插入图片描述

9.2 检验spark

cmd 命令行窗口输入spark-shell
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

雪龙无敌 你的鼓励是我们一起前进的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。