Hadoop学习（二）Hadoop三大核心组件

最新推荐文章于 2025-02-27 16:59:33 发布

沼泽鱼97

最新推荐文章于 2025-02-27 16:59:33 发布

阅读量5.1w

点赞数 39

文章标签： Hadoop

本文链接：https://blog.csdn.net/weixin_40535323/article/details/82025442

版权

Hadoop的三大核心组件分别是：

HDFS（Hadoop Distribute File System）：hadoop的数据存储工具。
YARN（Yet Another Resource Negotiator,另一种资源协调者）：Hadoop 的资源管理器。
Hadoop MapReduce:分布式计算框架

一.HDFS

1.HDFS概述

HDFS是google三大论文之一的GFS的开源实现，是一个高度容错性的系统，适合部署在廉价的机器上的，适合存储海量数据的分布式文件系统。

在HDFS中，1个文件会被拆分成多个Block，每个Block默认大小为128M（可调节）。这些Block被复制为多个副本，被存放在不同的主机上，这也保证了HDFS的高容错性。

2.HDFS架构

下图展示了HDFS的基本架构

HDFS采用Master/slave架构模式，1一个Master(NameNode/NN) 带 N个Slaves(DataNode/DN)。

从内部来看，数据块存放在DataNode上。NameNode执行文件系统的命名空间，如打开、关闭、重命名文件或目录等，也负责数据块到具体DataNode的映射。DataNode负责处理文件系统客户端的文件读写，并在NameNode的统一调度下进行数据库的创建、删除和复制工作。NameNode是所有HDFS元数据的管理者，用户数据永远不会经过NameNode。

NN：
1）负责客户端请求的响应
2）负责元数据（文件的名称、副本系数、Block存放的DN）的管理

DN：
1）存储用户的文件对应的数据块(Block)
2）要定期向NN发送心跳信息，汇报本身及其所有的block信息，健康状况

3.HDFS读写流程

写数据流程

客户端Client向远程的Namenode发起RPC请求
Namenode会检查要创建的文件是否已经存在，创建者是否有权限进行操作，成功则会为文件创建一个记录，否则会让客户端抛出异常；
当客户端开始写入文件的时候，客户端会将文件切分成多个packets，并在内部以数据队列“data queue（数据队列） ”的形式管理这些packets，并向Namenode申请blocks，获取用来存储replications的合适的datanode列表，列表的大小根据Namenode中replication的设定而定；
开始以pipeline（管道）的形式将packet写入所有的replications中。客户端把packet以流的方式写入第一个datanode，该datanode把该packet存储之后，再将其传递给在此pipeline中的下一个datanode，直到最后一个datanode，这种写数据的方式呈流水线的形式。
最后一个datanode成功存储之后会返回一个ack packet（确认队列），在pipeline里传递至客户端，在客户端的开发库内部维护着”ack queue”，成功收到da

最低0.47元/天解锁文章