本文基于IDEA编写WordCount示例,并在Hadoop上运行。
一、前提
安装并配置好Java、Maven和Hadoop。
二、创建Maven项目
1. 创建项目
File -> New -> Project -> Maven,不用勾选archetype,点击next,填写项目名称,点击Finish。
2. 修改pom.xml
1)引入Hadoop依赖包
主要包括hadoop-common、hadoop-hdfs、hadoop-mapreduce-client-core、hadoop-mapreduce-client-jobclient、log4j(打印日志),注意这里hadoop相关依赖包的版本需要和本地下载的hadoop版本一致。
<dependencies>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.12</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.7.5</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>2.7.5</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-core</artifactId>
<version>2.7.5</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-jobclient&