Windows系统pyspark

1、JDK(本文中使用JDK8)

下载:oracle官网https://www.oracle.com/cn/java/technologies/javase/javase-jdk8-downloads.html

注意:需要有账号才能下载,注册很麻烦,有如下网站可以在里面下载也可以使用里面的共享账号

http://www.codebaoku.com/jdk/jdk-oracle-account.html

在这里插入图片描述
下载完成后,进行安装:
在这里插入图片描述
安装完成后,配置Java的三个系统环境变量:

JAVA_HOME: C:\Program Files\Java\jdk1.8.0_291

CLASS_PATH: C:\Program Files\Java\jdk1.8.0_291\lib

Path中增加: C:\Program Files\Java\jdk1.8.0_291\bin

在这里插入图片描述
在命令行窗口输入两个命令:java和javac,如果出现如下信息,则安装成功:
在这里插入图片描述
在这里插入图片描述

2、安装Scala(Scala-2.12.14)

查一下spark安装对应的scala版本
在这里插入图片描述
如上图所示,当前最新的spark3.0+对应的是Scala2.12版本,所以我们下载2.12的版本,Scala官网:https://www.scala-lang.org/download/all.html
在这里插入图片描述
随意找一个2.12版本下载,我下载的是2.12.14
在这里插入图片描述
自行选择哪种版本,这里我选择命令行版本下载,由于经常下载没反应,可以在浏览器种输入http://downloads.typesafe.com/scala/2.12.14/scala-2.12.14.msi,就可以很快的下载下来了,版本号可以更改。

下载完成后安装,看一下环境变量是否加上了,安装的时候是默认添加的,没有的话添加一下:
在这里插入图片描述
在cmd命令行模式试一下命令:
在这里插入图片描述

3、安装Spark,这里我安装的是spark-3.1.2-bin-hadoop3.2

下载地址:http://spark.apache.org/downloads.html
在这里插入图片描述
在这里插入图片描述
下载完成后解压:
在这里插入图片描述
把文件夹剪切到你自己想放的位置,然后添加环境变量:
在这里插入图片描述
还有SPARK_HOME环境变量

在cmd输入:spark-shell,查看是否安装成功:
在这里插入图片描述

然后把spark根目录下的python目录下的pyspark拷贝到你的python安装目录下的Lib\site-packages目录下面

4、安装hadoop3.2(因为上面的spark需要hadoop3.2的支持)

下载地址:https://hadoop.apache.org/releases.html
在这里插入图片描述

在这里插入图片描述
同spark一样,解压后把文件夹放到自己想放的位置,然后添加环境变量:
HADOOP_HOME:Hadoop(解压目录)
PATH:Hadoop目录下\bin

再在cmd中输入:spark-shell:
在这里插入图片描述
如果还报错,那就去hadoop目录下的bin目录下查看是否有一个winutils.exe文件,没有的话去下载放进去:https://github.com/steveloughran/winutils 或 http://www.opdown.com/soft/102004.html

在c盘创建如下文件夹:
c:\tmp\Hive

最后进入Hadoop的bin目录下,执行如下命令:

winutils.exe chmod 777 c:\tmp\Hive

测试,cmd控制台中输入pyspark命令:
在这里插入图片描述
如图所示代表成功!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值