为了快速入门java与Spark工程的构建与开发,本次使用java实现Spark经典程序WordCount,过程记录如下,如有错误,请指正。
1. 环境与数据准备
1.1 运行环境
-
Hadoop:2.7.7
-
Spark:2.4.7
-
java:1.8.0_211
-
Maven:3.6.3
1.2 数据准备
- 使用如下命令启动Hadoop集群,并使用jps命令确认是否启动成功
hadoop-daemon.sh start namenode
hadoop-daemon.sh start datanode
hadoop-daemon.sh start secondarynamenode
yarn-daemon.sh start resourcemanager
yarn-daemon.sh start nodemanager
- 在本地启动Hadoop集群后,将测试文件上传至HDFS指定目录下,查看hdfs目录如下:
hdfs dfs -mkdir /input
hdfs dfs -mkdir /output
hdfs dfs -put JackMa /input
hdfs dfs -ls /input
2. 代码实现
2.1 maven工程创建
使用intellij IDEA创建Maven工程,关于Maven的基本知识可以参考Maven系列教程。
- 在pom文件中增加以下语句,添加spark依赖
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
<spark.version>2.4.7</spark.version>
<scala.version>2.11</scala.version>
<hadoop.version>2.7.7</hadoop.version>
</properties>
<dependencies>
<dependency>