JobQueueTaskScheduler是JT默认的任务调度器,其本质上维护一个priority-based FIFO作业队列,基本的机制是优先调度高优先级/提交时间早的作业。但是,具体的调度策略需要综合考虑一系列的问题,比如cluster资源利用率、系统吞吐率、任务data locality等等。在复杂的集群环境和不同的系统负载下,完美的调度策略是不可能的,从Hadoop早期的jira讨论中可以发现,最终的调度策略往往是经过激烈地讨论和在大集群下不断benchmark得出的权衡。下面将从几个重点的设计因素出发,来学习该调度器的策略。
单个TaskTracker利用率
最初,JT调度器每次heartbeat只为TT分配一个task,这显然不利于充分利用TT,比较极端的情况是,每个task的运行时间都小于heartbeat interval,这样TT同时总是只能有一个task在运行。于是,HADOOP-3136提出每次heartbeat应该为分配多个task。因此,assignTask方法中出现这样的loop:
for (int i=0; i < availableMapSlots; ++i) {
for (JobInProgress job : jobQueue){
...
}
}
TaskTracker集群均衡负载
前面提到为了提高单个TT利用率,每个heartbeat要分配多个task。这带来一个问题:在一次heartbeat中,如果总是最大限度的分配