Hadoop MapReduce链式实践--ChainReducer

最新推荐文章于 2022-06-02 09:47:41 发布

fansy1990

最新推荐文章于 2022-06-02 09:47:41 发布

阅读量4k

点赞数

分类专栏： hadoop mapreduce hadoop 文章标签： ChainMapper ChainReducer hadoop链式任务

本文链接：https://blog.csdn.net/fansy1990/article/details/25836035

版权

本文介绍了在CDH5.0.0环境下，利用Hadoop的ChainReducer实现MapReduce任务的链式操作。通过一个场景描述，展示了如何在多个reducer之后添加mapper以整合数据。然而，实验结果显示ChainReducer不支持添加额外的reducer，并且相同的key总是被路由到同一个reducer，这使得最初设想的数据流程无法实现。尽管如此，理解这一原理有助于优化Hadoop作业的效率和数据处理流程。

摘要由CSDN通过智能技术生成

版本：CDH5.0.0，HDFS：2.3.0，Mapreduce:2.3.0,Yarn:2.3.0。

场景描述：求一组数据中按照不同类别的最大值，比如，如下的数据：

data1:

A,10
A,11
A,12
A,13
B,21
B,31
B,41
B,51

data2:

A,20
A,21
A,22
A,23
B,201
B,301
B,401
B,501

最后输出为：

A,23
B,501

假如这样的逻辑的mapreduce数据流如下：

假设C组数据比较多，同时假设集群有2个节点，那么这个任务分配2个reducer，且C组数据平均分布到两个reducer中，（这样做是为了效率考虑，如果只有一个reducer，那么当一个节点在运行reducer的时候另外一个节点会处于空闲状态）那么如果在reducer之后，还可以再次做一个reducer，那么不就可以整合数据到一个文件了么，同时还可以再次比较C组数据中，以得到真正比较大的数据。

首先说下，不用上面假设的方式进行操作，那么一般的操作方法。一般有两种方法：其一，直接读出HDFS数据，然后进行整合；其二，新建另外一个Job来进行整合。这两种方法，如果就效率来说的话，可能第一种效率会高点。

考虑到前面提出的mapreduce数据流，以前曾对ChainReducer有点印象，好像可以做这个，所以就拿ChainReducer来试，同时为了学多点知识，也是用了多个Mapper（即使用ChainMapper）。

主程序代码如下：

package chain;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.TextInputFormat;
import org.apache.hadoop.mapred.TextOutputFormat;
import org.apache.hadoop.mapred.lib.ChainMapper;
import org.apache.hadoop.mapred.lib.ChainReducer;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

public class ChainDriver2 extends Configured implements Tool{

	/**
	 * ChainReducer 实战
	 * 验证多个reducer的整合
	 * 逻辑：寻找最大值
	 * @param args
	 */
	
	private String input=null;
	private String output=null;
	private String delimiter=null;
	private int reducer=1;
	public static void main(String[] args) throws Exception {
		ToolRunner.run(new Configuration(), new ChainDriver2(),args);
	}
	
	@Override
	public int run(String[] arg0) throws Exception {
		configureArgs(arg0);
		checkArgs();
		Configuration conf = getConf();
		conf.set("delimiter", delimiter);
		JobConf  job= new JobConf(conf,ChainDriver2.class);
		
		ChainMapper.addMapper(job, MaxMapper.class, LongWritable.

最低0.47元/天解锁文章

fansy1990

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
Hadoop MapReduce链式实践--ChainReducer

版本：CDH5.0.0，HDFS：2.3.0，Mapreduce:2.3.0,Yarn:2.3.0。场景描述：求一组数据中按照不同类别的最大值，比如，如下的数据：data1:A,10A,11A,12A,13B,21B,31B,41B,51data2:A,20A,21A,22A,23B,201B,301B,401B,501最后输出为：A,23B,501假如这样的逻辑的m
复制链接

扫一扫

专栏目录