Hadoop——JobTracker和TaskTracker，以及如何演变成Yarn架构

最新推荐文章于 2025-02-27 16:59:33 发布

Song X.

最新推荐文章于 2025-02-27 16:59:33 发布

阅读量2.1k

点赞数 4

文章标签： hadoop java 大数据分布式 yarn

本文链接：https://blog.csdn.net/qq_22938671/article/details/104559708

版权

Hadoop的MapReduce计算框架通过JobTracker和TaskTracker实现计算向数据移动。然而，JobTracker的单点故障、资源管理与任务调度集成等问题在Hadoop 2.x中被Yarn解决。Yarn将资源管理和任务调度分离，提供更高效和弹性的资源调度，支持多种计算框架。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MapReduce计算框架是如何实现计算向数据移动的呢？

计算向数据移动面临着诸多问题，如：怎么让机器自动移动，面对block的许多副本，怎么判别移动到的是最合适的Datanode

这个问题牵扯到两个概念：资源管理，任务调度

资源管理：掌握各机器当前可用内存，可用CPU等情况
任务调度：根据可用资源，进行计算任务的分配（也就是向哪个Datanode移动）

MapReduce想要完成资源管理和任务调度，需要引进两个新的角色：JobTracker和TaskTracker

JobTracker：负责资源管理，任务调度
TaskTracker：管理被分到Datandoe的计算任务，资源汇报（TaskTracker与JobTracker之间维持心跳，实时汇报当前Datanode资源所剩情况）

JobTracker与TaskTracker之间也是主从结构。

然而推动计算向数据移动的角色是client

在这里插入图片描述
下面具体阐述client到底做了什么

根据每次需要计算的数据，咨询NN元数据，得到block信息

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Song X.

关注关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Hadoop之JobTracker源码分析

liupc123123的专栏

07-29

1809

JobTracker源码分析前言 JobTracker是Hadoop中的一个重要角色，负责任务的调度和分配，和client端的任务提交也有关系，这次主要分析JobTracker中JobTracker和TaskTracker心跳机制在JobTracker这端的详细实现过程以及client提交的任务是如何被处理然后分配给TaskTracker的。 JobTracker启动在ha

Hadoop集群中JobTracker和TaskTracker启动耗时过多的原因分析

PunC的专栏

03-07

1766

在正式环境中，我们遇到一个这样的问题：配置更改后，需要重启JobTracker和TaskTracker节点的进程。在重启过程中，JobTracker和TaskTracker进程都很快启动完成，但是查看JobTracker的50030端口的Web管理页面时，发现JobTracker一直无法探知任何一个TaskTracker节点，大概经过10分钟后，才陆陆续续地探知完所有的TaskTracker节点。

参与评论您还未登录，请先登录后发表或查看评论

Hadoop架构详解

最新发布

dxh9231028的博客

02-27

2503

Hadoop 是一个开源的分布式计算框架，用于存储和处理大规模数据集。Hadoop 主要由HDFS（Hadoop Distributed File System）、MapReduce、Yarn（Jobtracker，TaskTracker）三大核心组件组成。其中HDFS是分布式文件系统，用于存储文件，MapReducer是计算框架，可以分为Map和Reduce两部分，简单来说就是先分组，后计算，而Yarn则是对主机资源的协调，辅助计算的顺利进行。

Hadoop JobTracker和TaskTracker

荣耀之路

07-03

2411

JobTracker和TaskTracker JobTracker 对应于 NameNode TaskTracker 对应于 DataNode DataNode 和NameNode 是针对数据存放来而言的 JobTracker和TaskTracker是对于MapReduce执行而言的 mapreduce中几个主要概念，mapreduce整体上可以分为这么几条执行线索： jobclien

hadoop之JobTracker，TaskTracker，hadoop调度器

weixin_33874713的博客

04-23

206

DataNode 和NameNode 是针对数据存放来而言的 JobTracker和TaskTracker是对于MapReduce执行而言的一：JobTracker JobTracker协作作业的运行；负责调度分配每一个子任务task运行于TaskTracker上，如果发现有失败的task就重新分配其任务到其他节点。一般情况应该把JobTracker部署在单独的机器上。...

Hadoop之JobTracker，TaskTracker，Scheduler

写博客只为学习

03-07

250

DataNode 和NameNode 是针对数据存放来而言的 JobTracker和TaskTracker是对于MapReduce执行而言的 [size=x-large][b]一：JobTracker[/b][/size] JobTracker协作作业的运行： [color=red][b]负责调度分配每一个子任务task运行于TaskTracker上，如果发现有失败的task就...

Hadoop的JobTracker和TaskTracker在MapReduce中的作用是什么？

jakelihua

09-12

1341

TaskTracker还负责处理本地数据的本地化，即将任务分配到存储有输入数据的节点上，以减少数据的网络传输。在这个过程中，JobTracker负责接收作业请求，并将作业划分为多个任务，并将任务分配给不同的TaskTracker执行。在main()方法中，我们配置了作业的输入路径和输出路径，并指定了Mapper和Reducer的类。在Hadoop的MapReduce框架中，JobTracker和TaskTracker是两个关键组件，分别扮演着不同的角色。

深入理解Hadoop的JobTracker与TaskTracker

# 1. 引言 ...在Hadoop中，JobTracker和TaskTracker是两个关键组件，用于管理和调度MapReduce任务的执行。 JobTracker负责接收Client提交的作业，并将作业划分为多个任务分配给不同的TaskTracker进行

Hadoop JobTracker与TaskTracker：启动配置与性能调优案例分析

![hadoop正常工作时启动的...在Hadoop早期版本中，JobTracker和TaskTracker扮演了非常关键的角色。本章节将为读者概述这两个组件的基本概念和它们在Hadoop架构中的位置。 ## 1.1 JobTracker与TaskTracker的定义 Job

Hadoop集群安装配置指南：NameNode与DataNode，JobTracker与TaskTracker解析

6. **启动Hadoop**：启动Hadoop的所有进程，包括DataNode、NameNode、TaskTracker和JobTracker等。 7. **测试Hadoop**：通过运行简单的WordCount示例验证Hadoop集群是否正常工作。在实际部署中，还需要考虑安全性...

Hadoop源码之JobTracker

wwtang9527的专栏

12-19

913

JobTracker是Map/Reducer中任务调度的服务器。 1、有如下线程为其服务： 1）提供两组RPC服务（InterTrackerProtocol、JobSubmissionProtocol）的1个Listener线程与默认10个Handler线程； 2）提供任务执行情况查询的一组web服务线程，包括Socker Listener等； 3）ExpireTrackers：用来停

hadoop作业调度详解之JobTracker

smn3255的专栏

12-01

3976

5.JobTracker JobTracker是在网络环境中提交及运行MR任务的核心位置。 5.0 JobTracker启动 JobTracker类中有一个main()函数，hadoop启动的时候执行此main()函数启动JobTracker进程，main()中生成一个JobTracker的对象，然后通过tracker.offerService()语句启

hadoop之JobTracker功能分析

weixin_33888907的博客

12-06

256

JobTracker是整个MapReduce计算框架中的主服务，相当于集群的“管理者”，负责整个集群的作业控制和资源管理。本文对JobTracker的启动过程及心跳接收与应答两个主要功能进行分析。 1JobTracker启动过程 1.1各种线程功能函数offerService()会启动JobTracker内部几个比较重要的后台服务进程，分别是expireTrackersThread、r...

Hadoop的MR中获取JobTracker配置

smallnetvisitor的博客

10-21

849

需求：在执行MR的时候需要获得JobTracker的配置实现：通过Configuration来获取hadoop的所有配置相关的信息，配置文件以key-value的形式存在，如获取JobTracker配置: String jobTracker = context.getConfiguration() .get("mapred.job.tracker"); log.info...

Hadoop JobTracker之ExpireLaunchingTasks

海盗的小菜园

12-07

1000

ExpireLaunchingTasks为JobTracker的后台线程，该线程记录了task的启动时间，每当TaskTracker发送心跳时，JobTracker会分配合适的任务给TaskTracker，并且将TaskAttemptID和启动时间以键值对的形式记录到launchingTasks集合中，待下次心跳如果JT得知该任务启动成功，则会从launchingTasks集合中删除，否则记录失败

JobTracker内部原理——Hadoop资源管理

阿松的博客

12-01

893

Hadoop资源管理分两部分：资源表示模型和资源分配模型。资源表示模型：hadoop用槽位(slot)来组织各节点上的资源。hadoop将各个节点上的资源等量切分为若干份，每一份用一个slot表示，同时规定一个task可根据需要占用多个slot。slot也分map slot和reduce slot，可根据参数修改分配的slot数，节点的slot数回决定该节点的最大允许任务并发度。资源分配模型：由一个可插拔式的调度器完成。资源分配实际上的任务调度问题，是一个多目标优化问题，hadoop中，map ta

HADOOP MR架构分析（一） JobTracker 和 TaskTracker

weixin_33834628的博客

04-28

247

HADOOP 中 MR架构是基于网络的架构。其中有两个比较重要的类:JobTracker 和 TaskTracker，JobTracker 和 TaskTracker 是一对多的关系，多个 TaskTracker主动地向JobTracker发送请求（称作heartbeat），JobTracker接收到请求后，要完成一个最重要的工作就是为该TaskTrac...

JobTracker和TaskTracker

flying___bird的博客

04-17

2305

之前对JobTracker和TaskTracker有一个初步的了解，今天特地仔细的了解了一下。 Hadoop MapReduce采用Master/Slave结构。Master，是整个集群的唯一的全局管理者，功能包括：作业管理、状态监控和任务调度等，即MapReduce中的JobTracker。Slave，负责任务的执行和任务状态的回报，即MapReduce中的TaskTracker。...

hadoop系列之JobTracker启动源码解析

齐梦星空

09-09

433

文章目录本文是接着上一篇hadoop系列之使用jar命令提交任务在上一篇我们最后画了一张图：我们再jobClient调用init()函数的时候通过RPC获得了一个Jobtracker实例。然后在job调用submitJobInternal()的时候又调用了jobtracker的submitJob().接下来我们从submitJob()函数讲解jobtracker. ...