搭建完成单机环境可运行。
1.使用maven搭建。依赖spark,hadoop的jar包.不需要去安装hadoop,spark。不需要hadoop.dll.
<span style="white-space:pre"> </span><dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.10</artifactId>
<version>1.6.0</version>
<exclusions>
<exclusion>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-yarn-api</artifactId>
</exclusion>
</exclusions>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.7.2</version>
<exclusions>
<exclusion>
<groupId>javax.servlet</groupId>
<artifactId>*</artifactId>
</exclusion>
</exclusions>
</dependency>
<dependency>
<groupId>com.databricks</groupId>
<artifactId>spark-csv_2.11</artifactId>
<version>1.4.0</version>
</dependency>
<dependency>
<groupId>org.apache.commons</groupId>
<artifactId>commons-math3</artifactId>
<version>3.6.1</version>
</dependency>
2.eclipse安装scala插件(也可以不装)。
3.准备winutils.exe,比如存放目录为:c:\hadoop\bin\winutils.exe。在eclipse的spark项目属性run/debug_setting中,指定environment环境变量:变量名为HADOOP_HOME,变量值为c:\hadoop。确认HADOOP_HOME\bin目录下有winuils.exe文件即可。可能配置HADOOP_HOME目录也行,还没试。
ok,运行spark示例代码吧。
想在本机执行,spark示例代码需要做个小改动:创建SparkConf时增加setMaster("local");
........ = new SparkConf().setAppName("JavaWordCount").setMaster("local");
补充===================
经测,在windows环境变量中设置HADOOP_HOME变量,指向hadoop根目录,确认HADOOP_HOME\bin目录下有winuils.exe文件,不需要在eclipse中设置了。