在idea中编写wordcount程序

最新推荐文章于 2024-03-11 16:24:10 发布

火成哥哥

最新推荐文章于 2024-03-11 16:24:10 发布

阅读量4.3k

点赞数 3

分类专栏： Hadoop 文章标签：大数据 mapreduce hadoop java spark

本文链接：https://blog.csdn.net/a1786742005/article/details/104489981

版权

本文介绍了如何在IntelliJ IDEA环境下使用Java编写WordCount程序，详细讲解了从环境准备、MapReduce流程分析、代码编写、本地及集群测试的全过程。涉及到的技术包括Hadoop、MapReduce和Spark。

摘要由CSDN通过智能技术生成

一、wordcount介绍

1、需求
统计给定文本文件中每一个单词出现的总次数，并输出。

2、输入数据
每个单词之间以"\t"分割
在这里插入图片描述 3、期望输出数据

hadoop	2
spark	1
sqoop	1
hbase	1
kafka	1
flume	1
mapreduce	1

二、wordcount 流程分析

按照 MapReduce 编程规范，我们需要分别编写 Mapper、Reducer、Driver。下图为流程分析：
在这里插入图片描述

三、idea环境准备

1、创建 maven 工程
在这里插入图片描述

2、在 pom 中添加依赖
注意这里要根据自己的开发环境进行对应的配置

 <!--阿里云搭建了一个国内镜像http://maven.aliyun.com，跑起来速度很快，可以进行配置-->
    <repositories>
        <repository>
            <id>nexus-aliyun</id>
            <name>nexus-aliyun</name>
            <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
            <releases>
                <enabled>true</enabled>
            </releases>
            <snapshots>
                <enabled>false</enabled>
            </snapshots>
        </repository>
    </repositories>

    <dependencies>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>RELEASE</version>
        </dependency>
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-core</artifactId>
            <version>2.8.2</version>
        </dependency