配置windows下Spark MLlib的编程环境,实现在windows下用scala开发程序,用小数据集测试验证程序的正确性。少做修改,或者不做修改,然后打包成jar文件,用spark-submit提交到spark集群进行测试。假设已 安装好jdk、scala、IntelliJ IDEA和scala插件。
1. 安装hadoop、spark和hadoop2.6_Win_x64-master
下载 hadoop-2.6.0.tar.gz和spark-1.6.0-bin-hadoop2.6,从github下载hadoop2.6_Win_x64-master.zip(https://github.com/sdravida/hadoop2.6_Win_x64)。创建目录e:\spark,1)将三个文件解压缩到e:\spark目录下,2)将E:\spark\hadoop2.6_Win_x64-master\bin的文件拷贝到E:\spark\hadoop260\bin下面,3)将spark-assembly-1.6.0-hadoop2.6.0.jar文件拷贝到C:\Program Files (x86)\JetBrains\IntelliJ IDEA 2016.2.5\lib目录下。
2. 配置spark编译环境
启动idea创建scala工程