分布式文件系统HDFS

最新推荐文章于 2024-04-17 08:25:40 发布

QAQ_0v0

最新推荐文章于 2024-04-17 08:25:40 发布

阅读量155

点赞数

分类专栏： hdfs hadoop

本文链接：https://blog.csdn.net/QAQ_0v0/article/details/108587933

版权

hadoop 同时被 2 个专栏收录

36 篇文章 0 订阅

订阅专栏

hdfs

11 篇文章 0 订阅

订阅专栏

分布式文件系统HDFS

HDFS分布式文件系统设计目标
HDFS的架构图之基础架构
hdfs的架构之文件的文件副本机制以及block块存储
- 抽象成数据块的好处
- 块缓存
HDFS的元数据信息FSimage以及edits和secondaryNN的
HDFS的文件写入过程
HDFS的文件读取过程

HDFS分布式文件系统设计目标

硬件错误由于集群很多时候由数量众多的廉价机组成，使得硬件错误成为常态
数据流访问所有应用以流的方式访问数据，设置之初便是为了用于批量的处理数据，而不是低延时的实时交互处理
大数据集典型的HDFS集群上面的一个文件是以G或者T数量级的，支持一个集群当中的文件数量达到千万数量级
简单的相关模型假定文件是一次写入，多次读取的操作
移动计算比移动数据便宜一个应用请求的计算，离它操作的数据越近，就越高效
多种软硬件的可移植性

HDFS的架构图之基础架构

在这里插入图片描述

NameNode是一个中心服务器，单一节点（简化系统的设计和实现），负责管理文件系统的名字空间（namespace）以及客户端对文件的访问
文件操作，namenode是负责文件元数据的操作，datanode负责处理文件内容的读写，跟文件内容相关的数据流不经过Namenode，只询问它跟哪个dataNode联系，否则NameNode会成为系统的瓶颈
副本存放在哪些Datanode上由NameNode来控制，根据全局情况作出块放置决定，读取文件时NameNode尽量让用户先读取最近的副本，降低读取网络开销和读取延时
NameNode全权管理数据的复制，它周期性的从集群中的每个DataNode接收心跳信息和状态报告，接收到心跳信号意味着DataNode节点工作正常，块状态报告包含了一个该DataNode上所有的数据列表

hdfs的架构之文件的文件副本机制以及block块存储

所有的文件都是以block块的方式存放在HDFS文件系统当中，在hadoop1当中，文件的block块默认大小是64M，hadoop2当中，文件的block块大小默认是128M，block块的大小可以通过hdfs-site.xml当中的配置文件进行指定

    <property>
        <name>dfs.block.size</name>
        <value>块大小 以字节为单位</value>//只写数值就可以
    </property>

抽象成数据块的好处

一个文件有可能大于集群中任意一个磁盘
10T*3/128 = xxx块 2T，2T，2T 文件方式存—–>多个block块，这些block块属于一个文件
使用块抽象而不是文件可以简化存储子系统
块非常适合用于数据备份进而提供数据容错能力和可用性

块缓存

通常DataNode从磁盘中读取块，但对于访问频繁的文件，其对应的块可能被显示的缓存在DataNode的内存中，以堆外块缓存的形式存在。默认情况下，一个块仅缓存在一个DataNode的内存中，当然可以针对每个文件配置DataNode的数量。作业调度器通过在缓存块的DataNode上运行任务，可以利用块缓存的优势提高读操作的性能。

block块的大小，可以根据实际工作当中的文件特性来调整，如果都是一些大文件，可以稍微调大block块的大小
128M的block快 300M 的文件产生3个block块 3个block块的元数据信息会存储在namenode当中
256M的block快 300M 的文件产生2个block块 2个block块的元数据信息会存储在namenode当中

HDFS的元数据信息FSimage以及edits和secondaryNN的

在这里插入图片描述
在hadoop当中，使用此架构的时候，也就是namenode就一个的时候，所有的元数据信息都保存在了FsImage与Eidts文件当中，这两个文件就记录了所有的数据的元数据信息，元数据信息的保存目录配置在了hdfs-site.xml当中。

FSImage与edits详解

客户端对hdfs进行写文件时会首先被记录在edits文件中。
edits修改时元数据也会更新。
每次hdfs更新时edits先更新后客户端才会看到最新信息。
fsimage:是namenode中关于元数据的镜像，一般称为检查点。
一般开始时对namenode的操作都放在edits中，为什么不放在fsimage中呢？
因为fsimage是namenode的完整的镜像，内容很大，如果每次都加载到内存的话生成树状拓扑结构，这是非常耗内存和CPU。
fsimage内容包含了namenode管理下的所有datanode中文件及文件block及block所在的datanode的元数据信息。随着edits内容增大，就需要在一定时间点和fsimage合并。

FSimage文件当中的文件信息查看

使用命令 hdfs oiv

cd  /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/namenodeDatas/current
hdfs oiv -i fsimage_0000000000000000864 -p XML -o hello.xml

edits当中的文件信息查看

查看命令 hdfs oev

cd  /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/edits
hdfs oev -i  edits_0000000000000000865-0000000000000000866 -o myedit.xml -p XML

secondarynameNode如何辅助管理FSImage与Edits文件

secnonaryNN通知NameNode切换editlog
secondaryNN从NameNode中获得FSImage和editlog(通过http方式)
secondaryNN将FSImage载入内存，然后开始合并editlog，合并之后成为新的fsimage
secondaryNN将新的fsimage发回给NameNode
NameNode用新的fsimage替换旧的fsimage

完成合并的是secondarynamenode，会请求namenode停止使用edits,暂时将新写操作放入一个新的文件中（edits.new)。secondarynamenode从namenode中通过http get获得edits，因为要和fsimage合并，所以也是通过http get 的方式把fsimage加载到内存，然后逐一执行具体对文件系统的操作，与fsimage合并，生成新的fsimage，然后把fsimage发送给namenode，通过http post的方式。namenode从secondarynamenode获得了fsimage后会把原有的fsimage替换为新的fsimage,把edits.new变成edits。同时会更新fstime。
hadoop进入安全模式时需要管理员使用dfsadmin的save namespace来创建新的检查点。
secondarynamenode在合并edits和fsimage时需要消耗的内存和namenode差不多，所以一般把namenode和secondarynamenode放在不同的机器上。
fs.checkpoint.period: 默认是一个小时（3600s)
fs.checkpoint.size: edits达到一定大小时也会触发合并（默认64MB)

HDFS的文件写入过程

client发起文件上传请求，通过RPC与NameNode建立通讯，NameNode检查目标文件是否已存在，父目录是否存在，返回是否可以上传；
client请求第一个block该传输到哪些DataNode服务器上；
NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配，返回可用的DataNode的地址如：A，B，C；

注：Hadoop在设计时考虑到数据的安全与高效，数据文件默认在HDFS上存放三份，存储策略为本地一份，同机架内其它某一节点上一份，不同机架的某一节点上一份。
4. client请求3台DataNode中的一台A上传数据（本质上是一个RPC调用，建立pipeline），A收到请求会继续调用B，然后B调用C，将整个pipeline建立完成，后逐级返回client；
5. client开始往A上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位（默认64K），A收到一个packet就会传给B，B传给C；A每传一个packet会放入一个应答队列等待应答。
6. 数据被分割成一个个packet数据包在pipeline上依次传输，在pipeline反方向上，逐个发送ack（命令正确应答），最终由pipeline中第一个DataNode节点A将pipelineack发送给client;
7. 当一个block传输完成之后，client再次请求NameNode上传第二个block到服务器。
在这里插入图片描述

HDFS的文件读取过程

Client向NameNode发起RPC请求，来确定请求文件block所在的位置；
NameNode会视情况返回文件的部分或者全部block列表，对于每个block，NameNode 都会返回含有该 block 副本的 DataNode 地址；这些返回的 DN 地址，会按照集群拓扑结构得出 DataNode 与客户端的距离，然后进行排序，排序两个规则：网络拓扑结构中距离 Client 近的排靠前；心跳机制中超时汇报的 DN 状态为 STALE，这样的排靠后；
Client 选取排序靠前的 DataNode 来读取 block，如果客户端本身就是DataNode,那么将从本地直接获取数据(短路读取特性)；
底层上本质是建立 Socket Stream（FSDataInputStream），重复的调用父类 DataInputStream 的 read 方法，直到这个块上的数据读取完毕；
当读完列表的 block 后，若文件读取还没有结束，客户端会继续向NameNode 获取下一批的 block 列表；
读取完一个 block 都会进行 checksum 验证，如果读取 DataNode 时出现错误，客户端会通知 NameNode，然后再从下一个拥有该 block 副本的DataNode 继续读。
read 方法是并行的读取 block 信息，不是一块一块的读取；NameNode 只是返回Client请求包含块的DataNode地址，并不是返回请求块的数据；
最终读取来所有的 block 会合并成一个完整的最终文件。

QAQ_0v0

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分布式文件系统HDFS

分布式文件系统HDFSHDFS分布式文件系统设计目标HDFS的架构图之基础架构hdfs的架构之文件的文件副本机制以及block块存储抽象成数据块的好处块缓存HDFS的元数据信息FSimage以及edits和secondaryNN的FSImage与edits详解FSimage文件当中的文件信息查看edits当中的文件信息查看secondarynameNode如何辅助管理FSImage与Edits文件HDFS的文件写入过程HDFS的文件读取过程HDFS分布式文件系统设计目标硬件错误由于集群很多时候由数
复制链接

扫一扫

专栏目录