Spark入门程序WordCount实现（Java）

最新推荐文章于 2024-07-03 15:06:34 发布

茵茵的聪聪

最新推荐文章于 2024-07-03 15:06:34 发布

阅读量2.5k

点赞数 1

分类专栏：数据分析大数据学习记录文章标签： spark wordcount maven

本文链接：https://blog.csdn.net/qq_36153312/article/details/110309739

版权

本文介绍了在Hadoop 2.7.7和Spark 2.4.7环境下，使用Java实现WordCount的步骤。首先，详细讲解了环境配置和数据准备，包括启动Hadoop集群和上传测试文件至HDFS。接着，通过IntelliJ IDEA创建Maven工程，添加Spark依赖。代码逻辑主要涉及从HDFS读取文件，分词，分组计数，然后将结果写回HDFS。最后，指导如何编译打包，使用spark-submit命令运行程序，并查看输出结果。

摘要由CSDN通过智能技术生成

文章目录

为了快速入门java与Spark工程的构建与开发，本次使用java实现Spark经典程序WordCount，过程记录如下，如有错误，请指正。

1. 环境与数据准备

1.1 运行环境

Hadoop：2.7.7
Spark：2.4.7
java：1.8.0_211
Maven：3.6.3

1.2 数据准备

使用如下命令启动Hadoop集群，并使用jps命令确认是否启动成功

hadoop-daemon.sh start namenode
hadoop-daemon.sh start datanode
hadoop-daemon.sh start secondarynamenode
yarn-daemon.sh start resourcemanager
yarn-daemon.sh start nodemanager

在这里插入图片描述

在本地启动Hadoop集群后，将测试文件上传至HDFS指定目录下，查看hdfs目录如下：

hdfs dfs -mkdir /input
hdfs dfs -mkdir /output
hdfs dfs -put JackMa /input
hdfs dfs -ls /input

在这里插入图片描述

2. 代码实现

2.1 maven工程创建

使用intellij IDEA创建Maven工程，关于Maven的基本知识可以参考Maven系列教程。

在pom文件中增加以下语句，添加spark依赖

<properties>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
        <spark.version>2.4.7</spark.version>
        <scala.version>2.11</scala.version>
        <hadoop.version>2.7.7</hadoop.version>
    </properties>

    <dependencies>
        <dependency>