HDFS架构及工作原理

最新推荐文章于 2022-11-11 09:59:01 发布

木鱼&金鱼

最新推荐文章于 2022-11-11 09:59:01 发布

阅读量872

点赞数 1

本文链接：https://blog.csdn.net/qq_30062385/article/details/79617309

版权

HDSF简介

Hadoop Distributed File System, Hadoop分布式文件系统。
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。
HDFS体系结构中有两类节点，一类是NameNode，又叫"元数据节点"；另一类是DataNode，又叫"数据节点"。
这两类节点分别承担Master和Worker具体任务的执行节点。总的设计思想：分而治之——将大文件、大批量文件，
分布式存放在大量独立的服务器上，以便于采取分而治之的方式对海量数据进行运算分析。
HDFS是一个主/从（Mater/Slave）体系结构，从最终用户的角度来看，它就像传统的文件系统一样，
可以通过目录路径对文件执行CRUD（Create、Read、Update和Delete）操作。但由于分布式存储的性质，
HDFS集群拥有一个NameNode和一些DataNode。NameNode管理文件系统的元数据，DataNode存储实际的数据。
客户端通过同NameNode和DataNodes的交互访问文件系统。客户端联系NameNode以获取文件的元数据，而真正的文件I/O操作是直接和DataNode进行交互的。
HDFS一般是用来“一次写入，多次读取”，不适合做实时交互性很强的事情，不适合存储大量小文件（当然，如果你偏要存大量小文件的话本文末尾会有解决方案).

特点

1. 保存多个副本，且提供容错机制，副本丢失或宕机自动恢复。默认存3份。
2. 运行在廉价的机器上。
3. 适合大数据的处理。HDFS默认会将文件分割成block，64M为1个block。
然后将block按键值对存储在HDFS上，并将键值对的映射存到内存中。如果小文件太多，那内存的负担会很重。
(笔记：HDFS不适合小文件存储：小文件多，造成内存负担。)

系统结构

Master和Slave结构。

分为三个角色：NameNode、SecondaryNameNode、DataNode。

NameNode

Master节点，大领导。
1. 管理数据块映射；
2. 处理客户端的读写请求；
3. 配置副本策略；
4. 管理HDFS的名称空间。
5. namenode 内存中存储的是 = fsimage + edits

SecondaryNameNode

小弟，分担大哥namenode的工作量。
SecondaryNameNode负责定时默认1小时，从namenode上，获取fsimage和edits来进行合并，然后再发送给namenode。
减少namenode的工作量。
NameNode的冷备份。

DataNode

Slave节点，奴隶，干活的。

1. 存储client发来的数据块block；

2. 执行数据块的读写操作。

热备份

b是a的热备份，如果a坏掉。那么b马上运行代替a的工作。

冷备份

b是a的冷备份，如果a坏掉。那么b不能马上代替a工作。但是b上存储a的一些信息，减少a坏掉之后的损失。

fsimage

元数据镜像文件（文件系统的目录树）。(?还是不懂)

edits

元数据的操作日志（针对文件系统做的修改操作记录）

工作原理

写操作

写操作原理图

写操作场景

有一个文件FileA，100M大小。Client将FileA写入到HDFS上。

HDFS按默认配置。

HDFS分布在三个机架上Rack1，Rack2，Rack3。

写操作流程

Client将FileA按64M分块。分成两块，block1和Block2;
Client向nameNode发送写数据请求，如图蓝色虚线①--->。
NameNode节点，记录block信息。并返回可用的DataNode，如粉色虚线②--->。
```
Block1: host2,host1,host3

Block2: host7,host8,host4
```
NameNode具有RackAware机架感知功能，这个可以配置。
若client为DataNode节点，那存储block时，规则为：副本1，同client的节点上；副本2，不同机架节点上；
副本3，同第二个副本机架的另一个节点上；其他副本随机挑选。
若client不为DataNode节点，那存储block时，规则为：副本1，随机选择一个节点上；
副本2，不同副本1，机架上；副本3，同副本2相同的另一个节点上；其他副本随机挑选。 (?没明白)
client向DataNode发送block1；发送过程是以流式写入。
◆ 流式写入过程
1> 将 64M 的block1按 64k 的package划分;
2> 然后将第一个package发送给host2;
3> host2接收完后，将第一个package发送给host1，同时client向host2发送第二个package;
4> host1接收完第一个package后，发送给host3，同时接收host2发来的第二个package;
5> 以此类推，如图红线实线所示，直到将block1发送完毕;
6> host2、host1、host3向NameNode发送通知，host2向Client发送通知，说“消息发送完了”。如图粉红颜色实线所示。
7> client收到host2发来的消息后，向namenode发送消息，说block1写完了。这样block1就完成了。如图黄色粗实线;
8> 发送完block1后，再向host7，host8，host4发送block2，如图蓝色实线所示；
9> 发送完block2后，host7,host8,host4向NameNode发送通知，host7向Client发送通知，如图浅绿色实线所示；
10> client向NameNode发送消息，说我写完了，如图黄色粗实线。这样就完毕了。

写操作总结

1. 写1T文件，我们需要3T的存储，3T的网络流量贷款。
2. 在执行读或写的过程中，NameNode和DataNode通过HeartBeat进行保存通信，确定DataNode活着。如果发现DataNode死掉了，就将死掉的DataNode上的数据，放到其他节点去。读取时，要读其他节点去。
3. 挂掉一个节点，没关系，还有其他节点可以备份；甚至，挂掉某一个机架，也没关系；其他机架上，也有备份。

读操作

读操作原理图

读操作场景

client要从datanode上，读取FileA。而FileA由block1和block2组成。

读操作流程

client向namenode发送读请求；
namenode查看Metadata信息，返回fileA的block的位置：
```
block1:host2,host1,host3

block2:host7,host8,host4
```
block的位置是有先后顺序的，先读block1，再读block2。而且block1去host2上读取；然后block2，去host7上读取。

注：

上面例子中，client位于机架外，那么如果client位于机架内某个DataNode上，例如,client是host6。那么读取的时候，遵循的规律是：优选读取本机架上的数据。

NameNode元数据管理原理分析

1.概述

　　首先明确namenode的职责：响应客户端请求、管理元数据。

　　namenode对元数据有三种存储方式：

　　内存元数据(NameSystem)

　　磁盘元数据镜像文件

　　数据操作日志文件（可通过日志运算出元数据）

　　细节：HDFS不适合存储小文件的原因，每个文件都会产生元信息，当小文件多了之后元信息也就多了，对namenode会造成压力。

2.对三种存储机制的进一步解释

　　内存元数据就是当前namenode正在使用的元数据，是存储在内存中的。

　　磁盘元数据镜像文件是内存元数据的镜像，保存在namenode工作目录中，它是一个准元数据，作用是在namenode宕机时能够快速较准确的恢复元数据。称为fsimage。

　　数据操作日志文件是用来记录元数据操作的，在每次改动元数据时都会追加日志记录，如果有完整的日志就可以还原完整的元数据。主要作用是用来完善fsimage，减少fsimage和内存元数据的差距。称为editslog。

　　3.checkpoint机制分析

　　因为namenode本身的任务就非常重要，为了不再给namenode压力，日志合并到fsimage就引入了另一个角色secondarynamenode。secondarynamenode负责定期把editslog合并到fsimage，“定期”是namenode向secondarynamenode发送RPC请求的，是按时间或者日志记录条数为“间隔”的，这样即不会浪费合并操作又不会造成fsimage和内存元数据有很大的差距。因为元数据的改变频率是不固定的。

　　每隔一段时间，会由secondary namenode将namenode上积累的所有edits和一个最新的fsimage下载到本地，并加载到内存进行merge（这个过程称为checkpoint）。

　　（图片来源于网络，仅供参考）

　　1）namenode向secondarynamenode发送RPC请求，请求合并editslog到fsimage。

　　2）secondarynamenode收到请求后从namenode上读取（通过http服务）editslog（多个，滚动日志文件）和fsimage文件。

　　3）secondarynamenode会根据拿到的editslog合并到fsimage。形成最新的fsimage文件。（中间有很多步骤，把文件加载到内存，还原成元数据结构，合并，再生成文件，新生成的文件名为fsimage.checkpoint）。

　　4）secondarynamenode通过http服务把fsimage.checkpoint文件上传到namenode，并且通过RPC调用把文件改名为fsimage。

　　namenode和secondary namenode的工作目录存储结构完全相同，所以，当namenode故障退出需要重新恢复时，可以从secondary namenode的工作目录中将fsimage拷贝到namenode的工作目录，以恢复namenode的元数据。

　　关于checkpoint操作的配置：

dfs.namenode.checkpoint.check.period=60 #检查触发条件是否满足的频率，60秒

dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary

#以上两个参数做checkpoint操作时，secondary namenode的本地工作目录

dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}

dfs.namenode.checkpoint.max-retries=3 #最大重试次数

dfs.namenode.checkpoint.period=3600 #两次checkpoint之间的时间间隔3600秒

dfs.namenode.checkpoint.txns=1000000 #两次checkpoint之间最大的操作记录

　　editslog和fsimage文件存储在$dfs.namenode.name.dir/current目录下，这个目录可以在hdfs-site.xml中配置的。这个目录下的文件结构如下：

　　包括edits日志文件（滚动的多个文件），有一个是edits_inprogress_*是当前正在写的日志。fsimage文件以及md5校检文件。seen_txid是记录当前滚动序号，代表seen_txid之前的日志都已经合并完成。

　　$dfs.namenode.name.dir/current/seen_txid非常重要，是存放transactionId的文件，format之后是0，它代表的是namenode里面的edits_*文件的尾数，namenode重启的时候，会按照seen_txid的数字恢复。所以当你的hdfs发生异常重启的时候，一定要比对seen_txid内的数字是不是你edits最后的尾数，不然会发生重启namenode时metaData的资料有缺少，导致误删Datanode上多余Block的信息。

HDFS主要分为两大角色，NameNode与DataNode，NameNode主要负责管理元数据，DataNode主要负责存储文件块。NameNode来管理datanode与文件块的映射关系。

一、NameNode的工作机制

当客户端想HDFS请求，上传的文件的时候，NameNode会先去检查，要上传文件的目录是否存在，不存在，则允许上传。得到允许和NameNode返回的DataNode信息后，客户端开始向DataNode写入block，而block的副本的复制（NameNode管理），与客户端上传是异步进行的。

HDFS为了快速的响应客户端的请求，也为了安全性的考虑(NameNode管理所有datanode，namenode宕机或者损坏，内存中的数据丢失，datanode中的所有数据就会无效)，为了防止这种情况的发生，NameNode是如何实现的？

当客户端请求namenode时，namenode会将客户端的数据进行分析，分配好datanode，并将信息记录在一个editslog的文件中，并将datanode信息返回给客户端，客户端得到信息后，开始写入，每完成一个block，客户端会发发送成功信息给namenode，namenode就会把editlog中的信息，加载进内存，这样即使断电或者宕机，namenode中内存的数据也可以恢复，其他客户端想要下载数据，也可以从内存中加载，实现了快速响应。

editlog的空间是有限的，集群运行时间编边长的时候，editlog写满后，hdfs会将editlog的数据写入fsimage，也就是fsimage中的数据是最全，而editlog是最近最新更新的数据，为了保证fsimage中的数据与内存中的数据保证一致性，当editlog写满时，editlog中数据就会与fsimage的信息做合并，刷到fsimage中。

editlog与fsimage的合并工作由secondnamenode来完成的。

当editlog与fsimage合并时，secondnamenode会进行checkpoint操作（合并），namenode产生新的editlognew，而停止向老editlog写入。secondnamenode会从namenode中下载editlog与faimage，进行合并，产生新的合并文件。合并完成后，上传到Namenode上，namenode就会把新的镜像文件替换老的fsimage，经editlognew重命名为editlog，一切恢复初始。

什么时候checkpoint？

1.fs.checkpoint.period 指定两次checkpoint的最大时间间隔，默认3600秒。

2.fs.checkpoint.size 指定edits log文件的最大值，一旦超过这个值则进行checkpoint，不管是否到达最大时间间隔。默认大小是64M。（配置参数写在hdfs-site.xml中）

元数据的存储形式：

所以，多小文件往HDFS中存，会浪费NameNode的元数据空间。

namenode宕机了，在恢复正常之前。hadoop集群还能正常提供服务吗？

hadoop2.x提供了高可用机制，可以有效解决这个问题。

二、DataNode的工作机制

datanode的工作机制相对简单，提供文件数据的存储服务，存储单位是文件块（block），对于文件内容而言，一个文件的长度大小是size，那么从文件的０偏移开始，按照固定的大小，顺序对文件进行划分并编号，划分好的每一个块称一个Block。HDFS默认Block大小是128MB。dfs.block.size可以配置block的大小。

如果一个文件小于一个数据块的大小仍然占用一个block，并不占用整个数据块存储空间，但是在namenode中占用一条元数据。

dfs.replication参数配置副本数，默认3个。

block的存储位置：

/hadoop-2.4.1/data/dfs/data/current/BP-980638925-127.0.0.1-1460262510326/current/finalized