# HDFS+MapReduce+Yarn详解

最新推荐文章于 2024-08-20 07:30:00 发布

咖啡里的

最新推荐文章于 2024-08-20 07:30:00 发布

阅读量622

点赞数 1

文章标签：大数据 hadoop hdfs mapreduce

本文链接：https://blog.csdn.net/dsafds123/article/details/106118949

版权

HDFS详解

1.HDFS 介绍

HDFS 是 Hadoop Distribute File System 的简称，意为：Hadoop 分布式文件系统。是 Hadoop 核心组件之一，作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储，他们是横跨在多台机器上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景，他们为存储和处理超大规模数据提供所需的扩展能力

1.1 HDFS 特性

hdfs是一个分布式的文件系统，用于存储文件，通过统一的命名空间目录树来定位文件;
采用 master/slave（主从）架构。有一个 namenode 和多个 datanode 组成，各司其职;
分块存储，默认大小在Hadoop2.x版本中是128M；
namenode 元数据管理，负责维护整个hdfs文件系统的目录树结构，以及每个文件所对应的 block 块信息（block 的 id，及所在的 datanode 服务器）。
DataNode 数据存储文件的 block 具体存储由 datanode承担，datanode 定时向 namenode 汇报自己持有的 block 信息
副本机制，为了容错，文件的所有block 都会有副本
HDFS 的设计为适应一次写入，多次读取，且不支持文件的修改。

1.2 HDFS 架构图

在这里插入图片描述
1、 NameNode是一个中心服务器，单一节点（简化系统的设计和实现），负责管理文件系统的名字空间（namespace）以及客户端对文件的访问
2、文件操作，namenode是负责文件元数据的操作，datanode负责处理文件内容的读写请求，跟文件内容相关的数据流不经过Namenode，只询问它跟哪个dataNode联系，否则NameNode会成为系统的瓶颈
3、副本存放在哪些Datanode上由NameNode来控制，根据全局情况作出块放置决定，读取文件时NameNode尽量让用户先读取最近的副本，降低读取网络开销和读取延时
4、 NameNode全权管理数据库的复制，它周期性的从集群中的每个DataNode接收心跳信合和状态报告，接收到心跳信号意味着DataNode节点工作正常，块状态报告包含了一个该DataNode上所有的数据列表

1.3 HDFS 中的FsImage以及edits和secondaryNamenode的作用

客户端对 hdfs 进行写文件时会首先被记录在 edits 文件中，edits 修改时元数据也会更新。每次 hdfs 更新时 edits 先更新后客户端
fsimage:NameNode 中关于元数据的镜像, 一般称为检查点, fsimage 存放了一份比较完整的元数据信息
edits:edits 存放了客户端近一段时间的操作日志，客户端对 HDFS 进行写文件时会首先被记录在 edits 文件中，edits 修改时元数据也会更新
一般开始时对namenode的操作都放在edits中，为什么不放在fsimage中呢？
因为fsimage是namenode的完整的镜像，内容很大，如果每次都加载到内存的话生成树状拓扑结构，这是非常耗内存和CPU。
fsimage内容包含了namenode管理下的所有datanode中文件及文件block及block所在的datanode的元数据信息。随着edits内容增大，就需要在一定时间点和fsimage合并。
secondaryNamenode:定期检查edits文件，一旦edits文件触发合并条件(时间长短比如 1个小时，文件大小：64M)

Secondarynamenode 通知 NameNode 切换 edits文件
Secondarynamenode 从 NameNode 中获得 fsimage 和 edits文件
Secondarynamenode 将 fsimage载入内存，然后开始合并 edits 文件，合并之后成为新的 fsimage
Secondarynamenode 将新的 fsimage 发回给 NameNode
NameNode 用新的 fsimage替换旧的 fsimage

1.4 HDFS 的副本机制和机架感知

HDFS分布式文件系统的内部有一个副本存放策略：以默认的副本数=3为例：
1、第一个副本块存本机
2、第二个副本块存跟本机同机架内的其他服务器节点
3、第三个副本块存不同机架的一个服务器节点上

1.5 HDFS 读写过程

hdfs 文件写入过程

Client 发起文件上传请求，通过 RPC与 NameNode 建立通讯，NameNode 检查目标文件是否已经存在，父目录是否存在，返回是否可以上传
Client 请求第一个 block 该传输到哪些 DataNode 服务器上
NameNode 根据配置文件中指定的备份数量及机架感知原理进行文件分配，返回可用的 DataNode 的地址如：A,B,C（Hadoop 在设计时考虑到数据的安全与高效，数据文件默认在HDFS上存放三份，存储策略为本地一份，同机架内其他某一节点上一份，不同机架的某一节点上存一份）
Client 请求 3 台 DataNode 中的一台 A 上传数据（本质上是一个rpc 调用，建立pipeline），A 收到请求会继续调用 B，然后 B 调用 C，将整个 pipeline 建立完成，后逐级返回 client
Client 开始往 A 上传第一个 block（先从磁盘读取数据放到一个本地内存缓存），以 packet 为单位（默认64k），A收到一个packet就会传给 B，B传给C，A 每传一个packet 会放入一个应答队列等待应答
数据被分割成一个个 packet 数据包在 pipeline 上依次传输，在 pipeline 反方向上，逐个发送ack（命令正确应答），最终由pipeline中第一个 DataNode 节点 A 将 pipeline 发送给 Client
当一个 block 传输完成之后，Client 再次请求 NameNode 上传第二个到服务器

hdfs 文件读取过程

Client向NameNode发起rpc请求，来确定请求文件block所在的位置;
NameNode 会视情况返回文件的部分或者全部block列表，对于每个block，NameNode 都会返回含有该 block 副本的DataNode地址；这些返回的DN地址，会按照集群拓扑机构得出 DataNode 与客户端的距离，然后进行排序，排序两个规则：网络拓扑结构中距离 Client近的排靠前；心跳机制中超时汇报的 DN 状态为 STATE,这样的排靠后；
Client选取排序靠前的 DataNode 来读取block，如果客户端本身就是 DataNode，那么将从本地直接获取数据（短路读取特性）
底层上本质是建立 Socket Stream（FSDataInputStream），重复的调用父类DataInputStream 的 read 方法，直到这个块上的数据读取完毕；
当读完列表的block后，若文件读取还没有结束，客户端会继续向NameNode 获取下一批的block列表；
读取完一个block都会进行 checksum 验证，如果读取 DataNode 时出现错误，客户端会通知 NameNode ，然后再从下一个拥有block副本的Datanode继续读。
read 方法是并行的读取block信息，不是一块一块的读取；NameNode 只是返回 Client 请求包含块的DataNode地址，并不是返回请求块的数据；
最终读取来所有的block 会合并成一个完整的最终文件。