Hadoop平台自带的4种任务调度器做分析和比较

最新推荐文章于 2022-05-05 15:10:21 发布

zmycoco2

最新推荐文章于 2022-05-05 15:10:21 发布

阅读量7k

点赞数 3

分类专栏：分布式数据存储 Hadoop 文章标签： Hadoop平台自带的4种任务调度器做分

本文链接：https://blog.csdn.net/michaelzhou224/article/details/17162129

版权

分布式数据存储 Hadoop 专栏收录该内容

63 篇文章 0 订阅

订阅专栏

首先介绍了Hadoop平台下作业的分布式运行机制，然后对Hadoop平台自带的4种任务调度器做分析和比较，最后在分析JobTracker类文件的基础上指出了创建自定义任务调度器所需完成的工作。

首先Hadoop集群式基于单服务器的，只有一个服务器节点负责调度整个集群的作业运行，主要的具体工作是切分大数据量的作业，指定哪些Worker节点做Map工作、哪些Worker节点做Reduce工作、与Worker节点通信并接受其心跳信号、作为用户的访问入口等等。其次，集群中的每个Worker节点相当于一个器官，运行着主节点所指派的具体作业。这些节点会被分为两种类型，一种是接收分块之后的作业并做映射工作。另一种是负责把前面所做的映射工作按照约定的规则做一个统计。

Ｔａｓｋ－Ｔｒａｃｋｅｒ通过运行一个简单循环来定期地发送心跳信号（ｈｅａｒｔｂｅａｔ）给ＪｏｂＴｒａｃｋｅｒ．这个心跳信号会把ＴａｓｋＴｒａｃｋｅｒ是否还在存活告知ＪｏｂＴｒａｃｋｅｒ，ＴａｓｋＴｒａｃｋｅｒ通过信号指明自己是否已经准备

好运行新的任务．一旦ＴａｓｋＴｒａｃｋｅｒ已经准备好接受任务，ＪｏｂＴｒａｃｋｅｒ就会从作业优先级表中选定一个作业并分配下去．至于到底是执行Ｍａｐ任务还是Ｒｅｄｕｃｅ任务，是由ＴａｓｋＴｒａｃｋｅｒ的任务槽所决定的．默认的任务调度器在处理Ｒｅｄｕｃｅ任务之前，会优先填满空闲的Ｍａｐ任务槽．因此，如果ＴａｓｋＴｒａｃｋｅｒ满足存在至少一个空闲任务槽时，ＪｏｂＴｒａｃｋｅｒ会为它分配Ｍａｐ任务，否则为它选择一个Ｒｅｄｕｃｅ任务．ＴａｓｋＴｒａｃｋｅｒ在运行任务的时候，第一步是从共享文件系统中把作业的ＪＡＲ文件复制过来，从而实现任务文件的本地化．第二步是ＴａｓｋＴｒａｃｋｅｒ为任务新建一个本地文件夹并把作业文件解压在此目录中．第三步是由Ｔａｓｋ－Ｔｒａｃｋｅｒ新建一个ＴａｓｋＲｕｎｎｅｒ实例来运行该任务．

Ｈａｄｏｏｐ平台默认的调度方案就是ＪｏｂＱｕｅｕｅＴａｓｋＳｃｈｅｄｕｌｅｒ，这是一种按照任务到来的时间先后顺序而执行的调度策略．这种方式比较简单，ＪｏｂＴｒａｃｋｅｒ作为主控节点，仅仅是依照作业到来的先后顺序而选择将要执行的作业．当然，这有一定的缺陷，由于Ｈａｄｏｏｐ平台是默认将作业运行在整个集群上的，那么如果一个耗时非常大的作业进入执行期，将会导致其余大量作业长时间得不到运行．这种长时间运行的优先级别并不高的作业带来了严重的作业阻塞，使得整个平台的运行效率处在较低的水平．Ｈａｄｏｏｐ平台对这种ＦＩＦＯ（Ｆｉｒｓｔ　ＩＮＡｎｄ　Ｆｉｒｓｔ　Ｏｕｔ）机制所给出的解决办法是调用ＳｅｔＪｏｂＰｒｉｏｒｉｔｙ（）方法，通过设置作业的权重级别来做平衡调度．

Ｆａｉｒ　Ｓｃｈｅｄｕｌｅｒ是一种“公平”调度器，它的目标是让每个用户能够公平地共享Ｈａｄｏｏｐ集群计算能力．当只有一个作业运行的时候，它会得到整个集群的资源．随着提交到作业表中作业的增多，Ｈａｄｏｏｐ平台会把集群中空闲出来的时间槽公平分配给每个需要执行的作业．这样即便其中某些作业需要较长时间运行，平台仍然有能力让那些短作业在合理时间内完成［３］．Ｆａｉｒ　Ｓｃｈｅｄｕｌｅｒ支持资源抢占，当一个资源池在一定时段内没有得到公平共享时，它会终止该资源池所获得的过多的资源，同时把这些释放的资源让给那些资源不足的资源池．

Ｈａｄｏｏｐ平台中的Ｃａｐａｃｉｔｙ　Ｓｃｈｅｄｕｌｅｒ是由Ｙａｈｏｏ贡献的，在调度器上，设置了三种粒度的对象：ｑｕｅｕｅ，ｊｏｂ，ｔａｓｋ．在该策略下，平台可以有多个作业队列，每个作业队列经提交后，都会获得一定数量的ＴａｓｋＴｒａｃｋｅｒ资源．具体调度流程如下．

（１）选择ｑｕｅｕｅ，根据资源库的使用情况从小到大排序，直到找到一个合适的ｊｏｂ．

（２）选择ｊｏｂ，在当前所选定的ｑｕｅｕｅ中，按照作业提交的时间先后以及作业的权重优先级别进行排序，选择合适的ｊｏｂ．当然，在ｊｏｂ选择时还需要考虑所选作业是否超出目前现有的资源上限，以及资源池中的内存是否够该ｊｏｂ的ｔａｓｋ用等因素．

（３）选择ｔａｓｋ，根据本地节点的资源使用情况来选择合适的ｔａｓｋ．

虽然Ｈａｄｏｏｐ平台自带了几种调度器，但是上述３种调度方案很难满足公司复杂的应用需求．因此作为平台的个性化使用者，往往需要开发自己的调度器．Ｈａｄｏｏｐ的调度器是在ＪｏｂＴｒａｃｋｅｒ中加载和调用的，因此开发一个自定义的调度器就必须搞清楚ＪｏｂＴｒａｃｋｅｒ类文件的内部机制．作为Ｈａｄｏｏｐ平台的核心组件，ＪｏｂＴｒａｃｋｅｒ监控着整个集群的作业运行情况并对资源进行管理调度．每个Ｔａｓｋ－Ｔｒａｃｋｅｒ每隔３ｓ通过ｈｅａｒｔｂｅａｔ向ＪｏｂＴｒａｃｋｅｒ汇报自己管理的机器的一些基本信息，包括内存使用量、内存的剩余量以及空闲的ｓｌｏｔ数目等等［５］．一

旦ＪｏｂＴｒａｃｋｅｒ发现了空闲ｓｌｏｔ，便会调用调度器中的ＡｓｓｉｇｎＴａｓｋ方法为该ＴａｓｋＴｒａｃｋｅｒ分配ｔａｓｋ。