Hadoop框架介绍

最新推荐文章于 2023-05-04 19:36:31 发布

快乐的霖霖

最新推荐文章于 2023-05-04 19:36:31 发布

阅读量878

点赞数

分类专栏：分布式与大数据系统

本文链接：https://blog.csdn.net/chdhust/article/details/24999823

版权

分布式与大数据系统专栏收录该内容

83 篇文章 4 订阅

订阅专栏

Hadoop框架介绍

Hadoop使用主/从（Master/Slave）架构，主要角色有NameNode,DataNode,secondary NameNode,JobTracker,TaskTracker组成。其中NameNode，secondary NameNode，JobTracker运行在Master节点上，DataNode和TaskTracker运行在Slave节点上。

1. NameNode

NameNode是HDFS的守护程序，负责记录文件是如何分割成数据块的，以及这些数据块被存储到哪些数据节点上。它的功能是对内存及I/O进行集中管理。

2. DataNode

集群中每个从服务器都运行一个DataNode后台程序，后台程序负责把HDFS数据块读写到本地文件系统。需要读写数据时，由NameNode告诉客户端去哪个DataNode进行具体的读写操作。

3. Secondary NameNode

Secondary NameNode是一个用来监控HDFS状态的辅助后台程序，如果NameNode发生问题，可以使用Secondary NameNode作为备用的NameNode。

4. JobTracker

JobTracker后台程序用来连接应用程序与Hadoop，用户应用提交到集群后，由JobTracker决定哪个文件处理哪个task执行，一旦某个task失败，JobTracker会自动开启这个task。

(1)概述：JobTracker是一个后台服务进程，启动之后，会一直监听并接收来自各个TaskTracker发送的心跳信息，包括资源使用情况和任务运行情况等信息.

(2)JobTracker的主要功能：

1.作业控制：在hadoop中每个应用程序被表示成一个作业，每个作业又被分成多个任务，JobTracker的作业控制模块则负责作业的分解和状态监控。最重要的是状态监控：主要包括TaskTracker状态监控、作业状态监控和任务状态监控。主要作用：容错和为任务调度提供决策依据。

2.资源管理。

5. TaskTracker

TaskTracker负责存储数据的DataNode相结合，位于从节点，负责各自的task。

(1)TaskTracker概述：TaskTracker是JobTracker和Task之间的桥梁：一方面，从JobTracker接收并执行各种命令：运行任务、提交任务、杀死任务等；另一方面，将本地节点上各个任务的状态通过心跳周期性汇报给JobTracker。TaskTracker与JobTracker和Task之间采用了RPC协议进行通信。

(2)TaskTracker的功能：

1.汇报心跳：Tracker周期性将所有节点上各种信息通过心跳机制汇报给JobTracker。这些信息包括两部分：

1)机器级别信息：节点健康情况、资源使用情况等。

2)任务级别信息：任务执行进度、任务运行状态等。

2.执行命令：JobTracker会给TaskTracker下达各种命令，主要包括：启动任务(LaunchTaskAction)、提交任务(CommitTaskAction)、杀死任务 (KillTaskAction)、杀死作业(KillJobAction)和重新初始化(TaskTrackerReinitAction)。