使用JobControl管理mapreduce多job依赖

最新推荐文章于 2024-07-25 11:17:10 发布

lvhuiyin

最新推荐文章于 2024-07-25 11:17:10 发布

阅读量698

点赞数

分类专栏： hadoop 文章标签： hadoop MapReduce

hadoop 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

 
 当MapReduce中作业不止一个，如果管理这些作业按照顺序执行，主要考虑是否有个线性的作业链或有向无环图（DAG） 

 
 对于线性链表最简单的就是一个接一个的运行作业，对于比线性链表更复杂的结构，有相关的类库可以帮助你合理安排工作流，最简单的就是org.apache.hadoop.mapred.jobcontrol包中的JobControl类，JobControl实例代表一个作业的运行图，可以加入作业配置，然后告诉JobControl实例作业之间的依赖关系 

 
 示例如下： 

 
 Java代码   

/**
* job2 依赖于 job1
* @param job1
* @param job2
* @param chainName
* @return
* @throws IOException
*/
public static int handleJobChain(Job job1 ,Job job2, String chainName) throws IOException{
ControlledJob controlledJob1 = new ControlledJob(job1.getConfiguration());
controlledJob1.setJob(job1);
ControlledJob controlledJob2 = new ControlledJob(job2.getConfiguration());
controlledJob2.setJob(job2);
controlledJob2.addDependingJob(controlledJob1);
JobControl jc = new JobControl(chainName);
jc.addJob(controlledJob1);
jc.addJob(controlledJob2);
Thread jcThread = new Thread(jc);
jcThread.start();
while(true){
if(jc.allFinished()){
System.out.println(jc.getSuccessfulJobList());
jc.stop();
return 0;
}
if(jc.getFailedJobList().size() > 0){
System.out.println(jc.getFailedJobList());
jc.stop();
return 1;
}
}
}

 
 要注意的地方就是 
 hadoop的JobControl类实现了线程Runnable接口 
 。我们 
 需要实例化一个线程来让它启动 
 。 
 直接调用JobControl的run()方法，线程将无法结束 
 。 

lvhuiyin

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
使用JobControl管理mapreduce多job依赖

当MapReduce中作业不止一个，如果管理这些作业按照顺序执行，主要考虑是否有个线性的作业链或有向无环图（DAG）对于线性链表最简单的就是一个接一个的运行作业，对于比线性链表更复杂的结构，有相关的类库可以帮助你合理安排工作流，最简单的就是org.apache.hadoop.mapred.jobcontrol包中的JobControl类，JobControl实例代表一个作业的运行图，可以加入作
复制链接

扫一扫

专栏目录