配置工程
在maven官网上下载最新的maven压缩包并解压。
下载IntelliJ IDEA并安装。
在IDEA中新建工程,选择maven,sdk选择java jdk的目录,勾选上Create form archetype,选择quickstart,下一步。
填写GroupId和ArtifactId,version填写1.0,下一步。
User settings file配置选择下载解压后的maven目录下的conf文件夹的settings.xml,然后下一步,完成。
IDEA创建工程,创建好了之后,修改根目录下的
pom.xm
文件,设置以下2个内容:<!--配置hadoop的远程仓库--> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.6.0-cdh5.7.0</version> </dependency> <!--配置hadoop版本,初次配置需要下载,要等一段时间--> <repositories> <repository> <id>cloudera</id> <url>http://repository.cloudera.com/artifactory/cloudera-repos/</url> </repository> </repositories>
配置完成后的文件长这个样子:
然后我们通过View—>ToolWindows—>Maven Projects调出Maven窗口,可以看到hadoop需要的包我们已经导入进来了。
配置完成,接下来在src中新建类,开始写我们的wordcount处理程序。
Mapper&Redeucer
写MapReduce不可避免的要用到这两个类:Mapper
和Reducer
,通过IDEA我们可以查看这两个类的代码。
首先是Mapper
:
public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> {
/**
* The <code>Context</code> passed on to the {@link org.apache.hadoop.mapreduce.Mapper} implementations.
*/
public abstract class Context
implements MapContext<KEYIN, VAL