一、问题描述
对输入的多个文件进行合并,并剔除其中重复的内容,去重后的内容输出到一个文件中。
file1.txt中的内容:
20150101 x
20150102 y
20150103 x
20150104 y
file2.txt中的内容:
20150105 z
20150106 x
20150101 y
20150102 y
file3.txt中的内容:
20150103 x
20150104 z
20150105 y
编写MapReduce程序,运行环境参考我的上一篇博客Intellij Idea配置MapReduce编程环境
package com.javacore.hadoop;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapredu