记录一下编写spark遇到的坑
IDEA安装详见
安装scala
这里有个坑,spark目前不支持2.13版本,所以我安装的是2.11版本的
scala下载
IDEA中编写scala代码
新建maven project
这是maven工程的结构,在scala目录下新建一个scala类(即object),现在就能写scala程序了
重点是pom.xml添加spark依赖
这是我的pom.xml
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>org.example</groupId>
<artifactId>untitled11</artifactId>
<version>1.0-SNAPSHOT</version>
<properties>
<spark.version>2.4.7</spark.version>
<scala.version>2.11.12</scala.version>
</properties>
<dependencies>
<!--添加Spark依赖-->
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>${spark.version}</version>
</dependency>
<!--添加Scala依赖-->
<dependency>
<groupId>org.scala-lang</groupId>
<artifactId>scala-library</artifactId>
<version>${scala.version}</version>
</dependency>
</dependencies>
</project>
pom.xml是我试过成功的,注意一下scala版本和你的版本一致,spark版本和scala版本兼容,右上角不报错,最后右上角一个m标志点一下就开始下载了,下载很慢,可以在settings里面换源(我不会)
下载好后,就可以看到External Libraries添加了依赖
运行spark程序,出结果,但是报错,原因缺少了winnutil 这个包
在windows上配置hadoop,先下载hadoop,在下载hadoop/bin,将前者中的bin替换掉,后者bin有winnutil 包等,注意版本一致
hadoop下载,下载 .tar.gz
下载更换的hadoop/bin
下载好了,windows配置hadoop环境变量,注意hadoop目录不要放在Program Files目录下,原因可能是空格导致,报以下错误,用PROGRA~1代替Program Files这种软链接方法好像也不行。
将hadoop目录放在一个无空格的文件夹或者直接c盘下,就解决了
运行一下spark代码,无报错信息