1、JDK(本文中使用JDK8)
下载:oracle官网https://www.oracle.com/cn/java/technologies/javase/javase-jdk8-downloads.html
注意:需要有账号才能下载,注册很麻烦,有如下网站可以在里面下载也可以使用里面的共享账号
http://www.codebaoku.com/jdk/jdk-oracle-account.html
下载完成后,进行安装:
安装完成后,配置Java的三个系统环境变量:
JAVA_HOME: C:\Program Files\Java\jdk1.8.0_291
CLASS_PATH: C:\Program Files\Java\jdk1.8.0_291\lib
Path中增加: C:\Program Files\Java\jdk1.8.0_291\bin
在命令行窗口输入两个命令:java和javac,如果出现如下信息,则安装成功:
2、安装Scala(Scala-2.12.14)
查一下spark安装对应的scala版本
如上图所示,当前最新的spark3.0+对应的是Scala2.12版本,所以我们下载2.12的版本,Scala官网:https://www.scala-lang.org/download/all.html
随意找一个2.12版本下载,我下载的是2.12.14
自行选择哪种版本,这里我选择命令行版本下载,由于经常下载没反应,可以在浏览器种输入http://downloads.typesafe.com/scala/2.12.14/scala-2.12.14.msi,就可以很快的下载下来了,版本号可以更改。
下载完成后安装,看一下环境变量是否加上了,安装的时候是默认添加的,没有的话添加一下:
在cmd命令行模式试一下命令:
3、安装Spark,这里我安装的是spark-3.1.2-bin-hadoop3.2
下载地址:http://spark.apache.org/downloads.html
下载完成后解压:
把文件夹剪切到你自己想放的位置,然后添加环境变量:
还有SPARK_HOME环境变量
在cmd输入:spark-shell,查看是否安装成功:
然后把spark根目录下的python目录下的pyspark拷贝到你的python安装目录下的Lib\site-packages目录下面
4、安装hadoop3.2(因为上面的spark需要hadoop3.2的支持)
下载地址:https://hadoop.apache.org/releases.html
同spark一样,解压后把文件夹放到自己想放的位置,然后添加环境变量:
HADOOP_HOME:Hadoop(解压目录)
PATH:Hadoop目录下\bin
再在cmd中输入:spark-shell:
如果还报错,那就去hadoop目录下的bin目录下查看是否有一个winutils.exe文件,没有的话去下载放进去:https://github.com/steveloughran/winutils 或 http://www.opdown.com/soft/102004.html
在c盘创建如下文件夹:
c:\tmp\Hive
最后进入Hadoop的bin目录下,执行如下命令:
winutils.exe chmod 777 c:\tmp\Hive
测试,cmd控制台中输入pyspark命令:
如图所示代表成功!