由于需要帮老婆完成课程作业,在ubuntu和win 10上都做了spark环境的配置,其中ubuntu环境的配置比较简单,网上教程也较多,但是win 10系统的教程中,往往忽略了很多问题,因此以下对win环境中的配置做一总结。
环境配置过程主要包括:
- Python
- JAVA (JDK)
- Spark
- Scala
- Hadoop
- 环境变量的设置
- PySpark
Python
本文使用的python环境为Anaconda环境,主要考虑的是Anaconda的集成度比较好。下载地址为:Anaconda,外网下载比较慢的话推荐:清华镜像。建议安装中将Python路径添加入Path。
JDK
JAVA的配置基本可以参照Spark在Windows下的环境搭建这篇博客。JAVA下载地址为:JAVA。
极为重要的一个点,一定不要安装最新的10.0.1,会导致后续的scala和spark都无法正常使用。目前我安装的版本为: