windows下spark环境搭建

最新推荐文章于 2023-12-14 23:18:33 发布

qinxike

最新推荐文章于 2023-12-14 23:18:33 发布

阅读量736

点赞数

分类专栏： Java 大数据

本文链接：https://blog.csdn.net/qinxike/article/details/52106908

版权

Java 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

大数据

1 篇文章 0 订阅

订阅专栏

搭建完成单机环境可运行。

1.使用maven搭建。依赖spark,hadoop的jar包.不需要去安装hadoop,spark。不需要hadoop.dll.

<span style="white-space:pre">		</span><dependency>
			<groupId>org.apache.spark</groupId>
			<artifactId>spark-core_2.10</artifactId>
			<version>1.6.0</version>
			<exclusions>
				<exclusion>
					<groupId>org.apache.hadoop</groupId>
					<artifactId>hadoop-yarn-api</artifactId>
				</exclusion>
			</exclusions>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-client</artifactId>
			<version>2.7.2</version>
			<exclusions>
			<exclusion>
				<groupId>javax.servlet</groupId>
				<artifactId>*</artifactId>
			</exclusion>
		</exclusions>
		</dependency>
		<dependency>
			<groupId>com.databricks</groupId>
			<artifactId>spark-csv_2.11</artifactId>
			<version>1.4.0</version>
		</dependency>
		<dependency>
			<groupId>org.apache.commons</groupId>
			<artifactId>commons-math3</artifactId>
			<version>3.6.1</version>
		</dependency>

2.eclipse安装scala插件(也可以不装)。

3.准备winutils.exe,比如存放目录为：c:\hadoop\bin\winutils.exe。在eclipse的spark项目属性run/debug_setting中，指定environment环境变量：变量名为HADOOP_HOME，变量值为c:\hadoop。确认HADOOP_HOME\bin目录下有winuils.exe文件即可。可能配置HADOOP_HOME目录也行，还没试。

ok,运行spark示例代码吧。

想在本机执行，spark示例代码需要做个小改动：创建SparkConf时增加setMaster("local");

........ = new SparkConf().setAppName("JavaWordCount").setMaster("local");

补充===================
经测，在windows环境变量中设置HADOOP_HOME变量，指向hadoop根目录，确认HADOOP_HOME\bin目录下有winuils.exe文件，不需要在eclipse中设置了。