1.1、需求
一个稍微复杂的处理逻辑往往需要多个MapReduce程序串联处理,多job的串联可以借助MapReduce框架的JobControl实现1.2、实例
一下有两个MapReduce任务,分别是Flow的SumMR和SortMR,其中有依赖关系:SumMR的输出是SortMR的输入,所以SortMR的启动的在SumMR完成之后具体代码如下:
public statci void main(String[] args) throws Exception{
Configuration conf = new Configuration();
Job jobsum = Job.getInstance(conf);
jobsum.setJarByClass(RunManyJobMR.class);
jobsum.setMapperClass(FlowSumMapper.class);
jobsum.setReducerClass(FlowSumReducer.class);
jobsum.setMapOutputKeyClass(Text.class);
jobsum.setMapOutputValueClass(Flow.class);
jobsum.setCombinerClass(FlowSumReducer.class);
jobsum.setOutputKeyClass(Text.class);
jobsum.setOutputValueClass(Text.class);
FileInputFormat.setInputPaths(jobsum, "d:/flow/input");
FileOutputFormat.setOutputPath(jobsum, new Path("d:/flow/output12"));

本文介绍了MapReduce中如何进行多Job的串联处理,详细阐述了需求背景,并通过实例展示了具体的编程实现,帮助读者理解在大数据处理中如何操作多个MapReduce任务。
最低0.47元/天 解锁文章

455

被折叠的 条评论
为什么被折叠?



