1.下载并安装JDK
点击下一步
选择安装地址,选择完直接下一步
点击完成
点击下一步
出现下面的界面
安装完成后跳出下面的界面,点击关闭
2.配置环境变量
右键计算机属性→高级系统设置→高级里的环境变量→系统变量里的Path→点击编辑→点击新建→浏览→找到下载的java文件,找到2个bin文件,点击确定
配置完成后的效果如下图
打开cmd窗口,输入
java -version
跳出下图的结果表示安装已经成功了
3.spark下载
网址:https://www.scala-lang.org/
下载这个版本
4.安装Scala的msi文件
点击next
点击next
选择安装地址,点击next
点击安装
完成后会自动添加环境变量,如果没有添加,按jdk的方式添加就行了
重新打开cmd输入
scala
得到下面的提示就已经完成了
5.spark下载及安装
网址:http://spark.apache.org/
选择一个下载
下载完毕后解压得到:
将spark的bin目录地址添加到环境变量中,方法还是和jdk时候的一样
6.Hadoop的安装
网址:https://archive.apache.org/dist/hadoop/common/
选择与spark对应的版本下载
先新建一个环境变量HADOOP_HOME
完成之后在把路径添加到系统变量中的PATH中.
打开新的cmd窗口输入
spark-shell
出现以下情况就成功了
7.配置python开发环境
将spark目录下的pyspark文件夹复制到python安装目录python的Lib\site-packages里。如图所示
在python环境中
pip install py4j
如果需要在python中或者在类似于IDEA IntelliJ或者PyCharm(笔者用的就是PyCharm)等IDE中使用PySpark的话,需要在系统变量中新建一个PYTHONPATH的系统变量,然后设置好下面变量值就可以了
结束!!!