JobTracker与Scheduler

JobTracker作为hadoop mapred架构中的核心模块,负责接收用户提交的Job请求,将Job(以Task形式)分配到各Task执行。Hadoop将JobTracker分配任务以及任务调度的逻辑进行了独立抽象,交给TaskScheduler完成,从而使得对Hadoop有改进企图的使用者可以通过实现自己的TaskScheduler类来完成对JobTracker的调度机制的个性化定制。

工作机制并不复杂,org.apache.hadoop.mapred.TaskScheduler为一个虚类,主要方法有:

public void start() throws IOException
public void terminate() throws IOException
public abstract List<Task> assignTasks(TaskTracker taskTracker)  throws IOException

研究一下JobTracker是如何使用这些方法的,就可知道其如何完成任务的调度工作。

1. 初始化
JobTracker对象中会包含一个类型为org.apache.hadoop.mapred.TaskScheduler的成员taskScheduler。taskScheduler在JobTracker对象的构造函数中,以反射方式创建。所创建的实际类型,为配置中的mapred.jobtracker.taskScheduler配置项所定义。只要是TaskScheduler的扩展类,都可以将其类名定义到mapred.jobtracker.taskScheduler中,从而实现让JobTracker使用用户自定义的scheduler的目的。

JobTracker为一个独立进程,其main方法会调用offerService方法,offerService会进行一些初始化工作及启动JobTracker的相关服务线程。其中,就会调用taskScheduler.start()。

2. 任务分配
JobTracker的heartbeat方法,会被taskTracker通过Hadoop IPC机制调用(对于IPC我们将另行说明)。在配置的时间间隔之后,每个taskTracker都会触发这个JobTracker heartbeat。关注一下heartbeat的参数:TaskTrackerStatus status,  boolean restarted, boolean initialContact,   boolean acceptNewTasks, short responseId 。其中的acceptNewTasks,当taskTracker任务自己还可以接受更多任务时,被设置成true;status则存储了taskTracker的状态信息。

JobTracker在heartbeat的处理过程中,当确认调用这个heatbeat的tasktracker可以接受更多的task时,调用taskScheduler.assignTasks来触发scheduler的任务分配逻辑,这样,通过传入参数“TaskTracker”告诉scheduler哪台tasktracker正在请求任务分配,scheduler则通过这个方法的task列表返回值,告诉jobtracker可以为该tasktracker分配哪些任务。

3. 结束
这个比较简单,JobTracker在结束的时候会调用close()方法,而该方法中,会调用scheduler的close。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值