一、wordcount介绍
1、需求
统计给定文本文件中每一个单词出现的总次数,并输出。
2、输入数据
每个单词之间以"\t"分割
3、期望输出数据
hadoop 2
spark 1
sqoop 1
hbase 1
kafka 1
flume 1
mapreduce 1
二、wordcount 流程分析
按照 MapReduce 编程规范,我们需要分别编写 Mapper、Reducer、Driver。下图为流程分析:
三、idea环境准备
1、创建 maven 工程
2、在 pom 中添加依赖
注意这里要根据自己的开发环境进行对应的配置
<!--阿里云搭建了一个国内镜像http://maven.aliyun.com,跑起来速度很快,可以进行配置-->
<repositories>
<repository>
<id>nexus-aliyun</id>
<name>nexus-aliyun</name>
<url>http://maven.aliyun.com/nexus/content/groups/public/</url>
<releases>
<enabled>true</enabled>
</releases>
<snapshots>
<enabled>false</enabled>
</snapshots>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>RELEASE</version>
</dependency>
<dependency>
<groupId>org.apache.logging.log4j</groupId>
<artifactId>log4j-core</artifactId>
<version>2.8.2</version>
</dependency