1、安装jdk环境
2、spark安装与配置
选择下载版本Index of /dist/spark
这里我选择的是spark-2.4.2,百度网盘链接:https://pan.baidu.com/s/1YexlRbv-9i9IR15U0YBbGw
提取码:1234
下载好版本后,解压至目录,并配置环境变量,设置path为C:\spark-2.4.2-bin-hadoop2.6\bin
注意:spark安装路径中不能有空格,否则会报错此时不应有 \spark-2.4.2-bin-hadoop2.6\bin
3、安装hadoop
3.1 hadoop下载
访问官网Apache Hadoop,注意版本一致,这里我下载的是hadoop-2.6.0.tar.gz.
百度网盘链接:https://pan.baidu.com/s/1hHDbSkQtNyyD1YiruePdFQ ,提取码:1234
解压到目录
3.2、winutils下载
网址https://github.com/steveloughran/winutils
下载对应版本的bin目录直接替换本地hadoop的bin目录
百度网盘链接:https://pan.baidu.com/s/1YZKQfwhBL6eoa-xhrXGUHw ,提取码:1234
4、配置HADOOP_HOME和path
path : C:\hadoop-2.6.0\bin
6、验证
在cmd命令中运行spark-shell
7、安装pyspark环境
注意:版本适配问题
PySpark 2.x.x 不支持 Python 3.8。
PySpark 3.x.x开始支持 Python 3.8。
我安装的环境python版本为python3.6.3,安装好python后,设置环境比变量
1)新建系统变量,变量名为PYSPARK_PYTHON,变量值为系统python路径,如图
2)新建系统变量,变量名SPARK_HOME,变量值为spark路径
8、验证pyspark