Mapreduce作业链

最新推荐文章于 2025-08-21 10:14:58 发布

tom_fans

最新推荐文章于 2025-08-21 10:14:58 发布

阅读量662

点赞数

CC 4.0 BY-SA版权

分类专栏： Mapreduce

本文链接：https://blog.csdn.net/tom_fans/article/details/78393937

Mapreduce 专栏收录该内容

8 篇文章

订阅专栏

本文通过一个具体示例介绍了如何在两个作业间建立依赖关系，使得第二个作业的输入依赖于第一个作业的输出。此方法适用于一系列按顺序执行的任务，且能够方便地添加条件判断以确保前一任务成功后再执行下一任务。

作业之间有依赖，比如一个作业的输入依赖一个走也的输出，那么这种情况就需要构建作业链来解决。先看一个简单的示例：

	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf, "MarketBasketAnalysis");
		job.setJarByClass(MarketBasketAnalysis.class);
		job.setMapperClass(TokenizerMapper.class);
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(IntWritable.class);
		job.setReducerClass(IntSumReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		job.setNumReduceTasks(1);
		FileInputFormat.addInputPath(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		job.waitForCompletion(true);
		
		Job job1 = Job.getInstance(conf, "MarketBasketAnalysis1");
		job1.setJarByClass(MarketBasketAnalysis.class);
		job1.setMapperClass(TokenizerMapper_1.class);
		job1.setMapOutputKeyClass(Text.class);
		job1.setMapOutputValueClass(IntWritable.class);
		job1.setReducerClass(IntSumReducer_1.class);
		job1.setOutputKeyClass(Text.class);
		job1.setOutputValueClass(IntWritable.class);
		FileInputFormat.addInputPath(job1, new Path(args[1]));
		FileOutputFormat.setOutputPath(job1, new Path(args[2]));

		System.exit(job1.waitForCompletion(true) ? 0 : 1);

	}

上面有2个JOB， job1的输入依赖job的输出，我们仔细看是怎么构建的，其实不过就是依次顺序执行而已，每个JOB有自己的map和reduce，仅仅是输入和输出有区别。

这里要说明一下，上面的job仅仅是等待完成，并没有去判断是否成功，很多时候，我们希望 job如果成功了，才继续走下去，如果失败了就System.exit，那个地方加个判断即可。

这种依赖适合A成功执行B，B成功再执行C，如果有并发执行的话，这个方式也可以，但是不太适合。