Mapreduce(MR)设置多个job的任务运行

标签: mr多job个运行 MapReduce mr多job个依赖
72人阅读 评论(0) 收藏 举报
分类:

          MapReduce多个job任务其本质原理就是job2任务依赖job1任务的返回结果即job1的输出路径是job2的输入路径。
job2任务的启动依赖job1任务结束所返回的状态。

        依据自己的实际经验:多个job的串行或并行触发,我认为还是分开写几个程序,用脚本控制其执行顺序,这样便于程序的调试,管理。
           当然,选择使用那种情况也是依赖项目的需求而定。
           多个job依赖代码如下:

package more_job;

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class moreJob {
	private static final LongWritable num = new LongWritable(1);
	static int pv = 0;

	public static class MMap extends Mapper<LongWritable, Text, Text, LongWritable> {
		@Override
		protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, LongWritable>.Context context)
				throws IOException, InterruptedException {
			String line[] = value.toString().split("\t");
			String url = line[3];
			if(url.contains("baidu.com")){
				context.write(new Text(url), num);
			}
		}
	}
	
	public static class MRed extends Reducer<Text, LongWritable, Text, Text>{
		@Override
		protected void reduce(Text key, Iterable<LongWritable> value,
				Reducer<Text, LongWritable, Text, Text>.Context context) throws IOException, InterruptedException {
			for(LongWritable i :value){
				pv++;
			}
			context.write(new Text(key), new Text(Integer.toString(pv)));
		}
	}
	
	public static class MMap2 extends Mapper<LongWritable, Text, Text, LongWritable> {
		@Override
		protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, LongWritable>.Context context)
				throws IOException, InterruptedException {
			String line[] = value.toString().split("\t");
			String url = line[0].split("baidu.com")[0];
			context.write(new Text(url), num);
		}
	}
	
	public static class MRed2 extends Reducer<Text, LongWritable, Text, LongWritable>{
		@Override
		protected void reduce(Text key, Iterable<LongWritable> value,
				Reducer<Text, LongWritable, Text, LongWritable>.Context context) throws IOException, InterruptedException {
			for(LongWritable i :value){
				pv++;
			}
			context.write(new Text(key), new LongWritable(pv));
		}
	}
	
	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		Configuration conf = new Configuration();
                //job1的配置
		Job job1 = Job.getInstance(conf, "Job1");
		job1.setJarByClass(moreJob.class);
		job1.setMapperClass(MMap.class);
		job1.setReducerClass(MRed.class);
		job1.setMapOutputKeyClass(Text.class);
		job1.setMapOutputValueClass(LongWritable.class);
		FileInputFormat.addInputPath(job1, new Path(args[0]));   
                FileOutputFormat.setOutputPath(job1, new Path(args[1])); 
                FileSystem fs =new Path(args[1]).getFileSystem(conf);
                if(fs.exists(new Path(args[1]))){  
                      fs.delete(new Path(args[1]), true); 
                }  
		job1.setMaxMapAttempts(4);
		job1.setNumReduceTasks(50);
        
		/*	
		 * job1的输出路径是job2的输入路径
		 * 判断job1结束的返回状态,成功结束就执行job2
		 * job2只是依赖job1的结果路径,并不是依赖job1的输出结果的键值对类型。
		*/
			
		if(job1.waitForCompletion(true)){
                        //job2的配置
	                Job job2 = Job.getInstance(conf, "Job2");
			job2.setJarByClass(moreJob.class);
			job2.setMapperClass(MMap2.class);
			job2.setReducerClass(MRed2.class);
			job2.setMapOutputKeyClass(Text.class);
			job2.setMapOutputValueClass(LongWritable.class);
			job2.setOutputValueClass(LongWritable.class);
			FileInputFormat.addInputPath(job2, new Path(args[1]));   
	                FileOutputFormat.setOutputPath(job2, new Path(args[2]));
	                if(fs.exists(new Path(args[2]))){  
	                   fs.delete(new Path(args[2]), true); 
	                }  
			job2.setMaxMapAttempts(4);
			job2.setNumReduceTasks(50);
			System.exit(job2.waitForCompletion(true) ? 0 : 1); 
		}
	}
}

查看评论

自己设置mapreduce程序的map个数和reduce个数

设置reduce个数(一个reduce生成一个文件) 1、如果不指定reduce个数,hive会基于一下两个参数自动计算       (1)hive.exec.reducers.bytes.per...
  • Franksten
  • Franksten
  • 2017-12-21 11:49:04
  • 412

MapReduce(二): Job的运行状态

提交一个Job后,其Job的状态变化过程如上图。一个Job包含Job Setup、Map、Reduce、Task、Task Clean、Job Cleanup 任务操作。JobTracker先分配一个...
  • dickens
  • dickens
  • 2014-09-02 11:37:40
  • 1012

Hadoop 里MapReduce里 实现多个job任务 包含(迭代式、依赖式、链式)

一、迭代式,所谓的迭代式,下一个执行的Job任务以上一个Job的输出作为输入,最终得到想要的结果。 这里我只写关键的代码了 Job job = new Job(new Configurati...
  • yulinlin_fei
  • yulinlin_fei
  • 2016-10-22 16:41:44
  • 2307

通过MapReduce JobID 停止(kill)指定任务

一、说明        有时候我们在提交任务以后,能够获取一个MapReduce任务的ID,一般为Job_**********_xxxx的组合,下面将介绍如何获取JobID,与通过其他程序与JOBID...
  • u011518678
  • u011518678
  • 2016-05-09 21:27:23
  • 4098

MapReduce任务运行到running job卡住

之前使用Apache的hadoop跑各种MR应用均没出现问题,然而使用CDH版的hadoop运行到running job却卡住了。...
  • aspkhdp
  • aspkhdp
  • 2015-11-23 16:13:26
  • 8712

MapReduce源码分析之作业Job状态机解析(一)简介与正常流程浅析

Job状态机维护了MapReduce作业的整个生命周期,即从提交到运行结束的整个过程。Job状态机被封装在JobImpl中,其主要包括14种状态和19种导致状态发生的事件。...
  • lipeng_bigdata
  • lipeng_bigdata
  • 2016-05-05 10:38:12
  • 7227

MapReduce多个作业协调处理

一:背景 当数据来源不同的时候,比如用户表在MYSQL数据库中,而销售表在HDFS中,我们可以启动多个作业来依次处理这些数据源。 二:技术实现 #需求 #用户表user在MYSQL数据...
  • lzm1340458776
  • lzm1340458776
  • 2015-01-25 14:55:18
  • 850

mapreduce任务出错最大尝试次数

一个任务出现失败时,tasktracker会将此任务的失败信息报告给jobtracker,jobtracker会分配新的节点执行此任务。这种情况下不会影响整个作业的完整执行。但是如果容易任务出现多次失...
  • orangeann
  • orangeann
  • 2014-05-03 14:25:48
  • 487

HUE提交MapReduce作业示例

说明 操作步骤 步骤1新建MapReduce的action 步骤2填写配置  步骤3提交作业说明因为HUE也是通过Oozie的REST提交作业,故看过Oozie提交作业总结后,在HUE中提交作业变得相...
  • u012948976
  • u012948976
  • 2016-11-19 23:18:12
  • 1770

如何杀掉当前正在执行的hadoop任务

列出当前hadoop正在执行的jobs: [hadoop@192.168.10.11 hadoop-0.20.2-cdh3u3]$ hadoop job -list 10 jobs currently...
  • lxpbs8851
  • lxpbs8851
  • 2013-08-28 10:44:17
  • 21407
    个人资料
    持之以恒
    等级:
    访问量: 976
    积分: 176
    排名: 100万+
    文章存档