JobTracker与Scheduler

最新推荐文章于 2024-06-30 15:07:48 发布

lt200819

最新推荐文章于 2024-06-30 15:07:48 发布

阅读量129

点赞数

分类专栏： hadoop 文章标签：大数据

本文链接：https://blog.csdn.net/lt200819/article/details/84445830

版权

hadoop 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

JobTracker作为hadoop mapred架构中的核心模块，负责接收用户提交的Job请求，将Job（以Task形式）分配到各Task执行。Hadoop将JobTracker分配任务以及任务调度的逻辑进行了独立抽象，交给TaskScheduler完成，从而使得对Hadoop有改进企图的使用者可以通过实现自己的TaskScheduler类来完成对JobTracker的调度机制的个性化定制。

工作机制并不复杂，org.apache.hadoop.mapred.TaskScheduler为一个虚类，主要方法有：

public void start() throws IOException
public void terminate() throws IOException
public abstract List<Task> assignTasks(TaskTracker taskTracker) throws IOException

研究一下JobTracker是如何使用这些方法的，就可知道其如何完成任务的调度工作。

1. 初始化
JobTracker对象中会包含一个类型为org.apache.hadoop.mapred.TaskScheduler的成员taskScheduler。taskScheduler在JobTracker对象的构造函数中，以反射方式创建。所创建的实际类型，为配置中的mapred.jobtracker.taskScheduler配置项所定义。只要是TaskScheduler的扩展类，都可以将其类名定义到mapred.jobtracker.taskScheduler中，从而实现让JobTracker使用用户自定义的scheduler的目的。

JobTracker为一个独立进程，其main方法会调用offerService方法，offerService会进行一些初始化工作及启动JobTracker的相关服务线程。其中，就会调用taskScheduler.start()。

2. 任务分配
JobTracker的heartbeat方法，会被taskTracker通过Hadoop IPC机制调用（对于IPC我们将另行说明）。在配置的时间间隔之后，每个taskTracker都会触发这个JobTracker heartbeat。关注一下heartbeat的参数：TaskTrackerStatus status, boolean restarted, boolean initialContact, boolean acceptNewTasks, short responseId 。其中的acceptNewTasks，当taskTracker任务自己还可以接受更多任务时，被设置成true；status则存储了taskTracker的状态信息。

JobTracker在heartbeat的处理过程中，当确认调用这个heatbeat的tasktracker可以接受更多的task时，调用taskScheduler.assignTasks来触发scheduler的任务分配逻辑，这样，通过传入参数“TaskTracker”告诉scheduler哪台tasktracker正在请求任务分配，scheduler则通过这个方法的task列表返回值，告诉jobtracker可以为该tasktracker分配哪些任务。

3. 结束
这个比较简单，JobTracker在结束的时候会调用close()方法，而该方法中，会调用scheduler的close。

lt200819

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
JobTracker与Scheduler

JobTracker作为hadoop mapred架构中的核心模块，负责接收用户提交的Job请求，将Job（以Task形式）分配到各Task执行。Hadoop将JobTracker分配任务以及任务调度的逻辑进行了独立抽象，交给TaskScheduler完成，从而使得对Hadoop有改进企图的使用者可以通过实现自己的TaskScheduler类来完成对JobTracker的调度机制的个性化定制。...
复制链接

扫一扫