一、准备:
1.1 引入依赖包:
<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.10</artifactId>
<version>1.2.0</version>
</dependency>
spark版本在不断迭代更新,也许这个版本已经过时,不同的版本之间java接口并不是完全兼容的,如果为了快速了解学习,请在maven中配置和我一样的spark依赖版本,这样下面的java接口调用代码是可以直接使用的,否则要自行处理版本更新导致的接口标准变化。比如你可能立即发现Iterator和Iterable的问题。
1.2 使用jdk1.8:
spark中的核心计算需要用户传递函数,简单的map操作可能就只有一行代码,这个时候lambda表达式就很好用了。不过要升到jdk1.8才能用。
<build>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<configuration>
<source>8</source>