参考博文:
https://www.cnblogs.com/nucdy/p/6776187.html
一、 部署本地spark环境
1.下载并安装好jdk1.8,配置完环境变量。
2.Spark环境变量配置
下载:http://spark.apache.org/downloads.html
我下载的是spark-2.3.0-bin-hadoop2.7.tgz,spark版本是2.3,对应的hadoop版本是2.7.
解压
配置系统环境变量:
将F:\spark-2.3.0-bin-hadoop2.7\bin添加到系统Path变量,同时新建SPARK_HOME变量,变量值为:F:\spark-2.3.0-bin-hadoop2.7
3.Hadoop相关包的安装(参考:https://www.cnblogs.com/wuxun1997/p/6847950.html ;https://blog.csdn.net/kaluoye/article/details/77984882)
spark是基于hadoop之上的,运行过程中会调用相关hadoop库,如果没配置相关hadoop运行环境,会提示相关出错信息,虽然也不影响运行。
我下载的是hadoop-2.7.6.tar.gz.
解压
配置系统环境变量:
将相关库添加到系统Path变量中:F:\hadoop-2.7.6\bin;同时新建HADOOP_HOME变量,变量值为:F:\hadoop-2.7.6。
下载window下适应的包,包含了hadoop.dll和winutils。资源:h