MapReducer去掉重复的数据

最新推荐文章于 2022-06-03 17:30:42 发布

KzGz

最新推荐文章于 2022-06-03 17:30:42 发布

阅读量1.2k

点赞数

分类专栏： Hadoop 文章标签： mapreducer Kz

本文链接：https://blog.csdn.net/qq_42734637/article/details/81197096

版权

该博客通过一个实例展示了如何利用MapReduce去除重复的数据。内容包括两个文件file1和file2的数据，经过MapReduce处理后的结果是去重后的数据集合。Map阶段获取文件名并输出键值对，Reduce阶段则负责整合相同键的数据，最终达到去重的效果。代码使用Java实现，包含MRMapper和MRReducer两个类，并提供了运行配置和主函数。

摘要由CSDN通过智能技术生成

file1：

2012-3-1 a
2012-3-2 b
2012-3-3 c
2012-3-4 d
2012-3-5 a
2012-3-6 b
2012-3-7 c
2012-3-3 c

file2：

2012-3-1 b
2012-3-2 a
2012-3-3 b
2012-3-4 d
2012-3-5 a
2012-3-6 c
2012-3-7 d
2012-3-3 c

结果：

2012-3-1 a
2012-3-1 b
2012-3-2 a
2012-3-2 b
2012-3-3 b
2012-3-3 c
2012-3-4 d
2012-3-5 a
2012-3-6 b
2012-3-6 c
2012-3-7 c
2012-3-7 d

直接看代码如下（打成打车jar包在Linux上运行）：

package com.alibaba.hdfs;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapred