HDFS核心理论学习记录

袁奎

已于 2023-08-20 16:31:01 修改

阅读量349

点赞数

分类专栏： hadoop hdfs 文章标签： hdfs hadoop 学习

于 2023-03-08 00:36:59 首次发布

本文链接：https://blog.csdn.net/weixin_43203363/article/details/129350947

版权

hadoop 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

hdfs

1 篇文章 0 订阅

订阅专栏

标题HDFS理论学习第一天

一、HDFS优缺点

1、优点

高容错性：数据会保存多个副本
适合处理大数据：能够处理GB，TB甚至PB级别的数据
能够处理百万规模的数据数据
廉价不吃配置

2、缺点

不适合低延时数据访问，文件存储是放在磁盘中读取会有额外io时间。
无法高效对大量小文件进行存储
大量小文件会增加namenode的元数据信息（块信息和文件目录）会增加寻址时间。
不支持并发写入只能单线程写。且仅支持在文件末尾追加数据不支持修改。

HDFS的容错机制

hdfs是一个分布式的文件系统，用于存储文件，通过目录树来定位文件；

HDFS的容错机制
HDFS 容错指的是集群部分机器宕机了，集群依然可以正常提供服务的能力。HDFS 是具有很好的容错性的分布式存储系统，它利用复制技术实现数据容错能力，数据会被复制多份并存储在集群的不同节点。这样，集群中的某些机器宕机了，数据还可以从其他正常运行的机器获取。如果有一个机器宕机了，HDFS 会在其他可用的机器创建数据的副本，来保证该数据的副本数与集群的副本因子是一致的。

HDFS 如何实现容错
HDFS 通过复制进程来保证容错机制。在文件写入 HDFS 时，HDFS 会首先把文件分割成块，并把这些数据块存储在集群不同机器上，然后在其他机器创建各个块的副本，默认情况下，HDFS 会在其他机器创建3个文件的副本。所以，HDFS 集群任意机器挂了，我们依然能从其他保存数据副本的机器上读取数据，由于这种独特的分布式存储特性，HDFS 给我们提供了更快的文件读写机制。

作者：酸辣鱼籽酱
链接：https://www.nowcoder.com/discuss/353503492612403200?sourceSSR=search
来源：牛客网

二、HDFS组织架构

○ 1.NameNode（NN）：存储文件的元数据，如：文件名，文件目录结构，文件属性，处理客户端请求，管理数据块映射信息，配置副本策略。

○ 2.DataNode（DN）：在本地文件系统存储文件的块数据，以及块数据的校验和。

○ 3.Secondary NameNode（2NN）：每隔一段时间对NameNode进行元数据的备份。

○ 4.Client：就是客户端，负责文件的切分，将文件切分为大小相同的物理块（Block）分布式存储在DataNode中。与NameNode进行交互，获取文件的位置信息，与DataNode进行交互，读取或者写入文件。

○ HDFS是Hadoop架构中的负责完成数据的分布式存储管理的文件系统。非高可用HDFS集群工作的时候会启动三个服务，分别是NameNode 和 DataNode以及SecondaryNameNode 。其中NameNode是HDFS的中心服务，主要维护管理文件系统中的文件的元数据信息，DataNode主要负责存储文件的真实数据块信息，当然在DataNode的数据块信息中也包含一下关于当前数据块的元数据信息例如检验值数据长度时间戳等。在非高可用HDFS集群中NameNode和DataNode可以理解为是一对多的关系。二者在集群工作中也要保持通信，通常默认3秒钟会检测一下心跳。最后SecondaryNameNode的工作很单一，就是为了给NameNode的元数据印象文件和编辑日志进行合并，并自己也保留一份元数据信息以防NameNode元数据丢失后有恢复的保障。

HDFS写数据流程

1. 剖析文件写入
在这里插入图片描述
（1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。
（2）NameNode返回是否可以上传。
（3）客户端请求第一个 Block上传到哪几个DataNode服务器上。
（4）NameNode返回3个DataNode节点和输出流对象，分别为dn1、dn2、dn3。
（5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
（6）dn1、dn2、dn3逐级应答客户端，。
（7）客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答，通过ack数据校验包返回数据是否传输完成。
（8）当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。
成功后关闭输出流，并向namenode返回文件已上传完毕，等待namenode
确认。因为NameNode已经知道文件由哪些块组成，因此仅需等待最小复制块即可成功返回即可。至此整个流程就完成了。

网络拓扑-节点距离计算

在HDFS写数据的过程中，NameNode会选择距离待上传数据最近距离的DataNode接收数据。那么这个最近距离怎么计算呢？
节点距离：两个节点到达最近的共同祖先的距离总和。

机架感知（副本存储节点选择）

众所周知，数据块会在hdfs上有多个副本默认三分。那么副本是按照什么策略存储呢？
副本1会存储在client所处节点上，如果client不在对应datanode节点则会随机存储在datanode集群。
副本2会存储在另一个机架随机的一个节点，副本3会存储在和副本3相同机架另个节点。

HDFS读数据流程

1.客户端通过distribute file system 向 NamenNode 发送请求下载文件A 德的请求。
2.namenode接收到后判断是否在存在该文件，且该用户是否有权限如果有则返回对应文件的元数据信息
3 . 客户端接收到元数据信息后，创建input输入流去找最近的节点D1去下载block1块数据，如果D1负载过高，那么下载block2块会打到另个d2节点。
4.传输block1数据，以packet为单位，每隔packet占64字节。先写入缓存，然后再写入目标文件

NN和2NN工作机制

NameNode中的元数据信息是存储在哪里的呢？
首先想到的是数据会存储在内存中，但是如果断电那么数据就会丢失，整个集群就会挂掉。
如果存放在磁盘中读取效率又很低，因为有io操作。
为了解决这个问题 hdfs 在磁盘中产生了备份文件fsimage。和历史操作记录文件Edits
fsimage是存储大部分的元数据序列化信息镜像。
edits文件保存元数据最近的操作记录。元数据修改操作信息会首先同步到edits文件中，再同步到，内存中。这么做的原因是如果修改元数据期间断电，数据不会丢失。
所以即便断电通过fsimage和edits两个文件合并最终也可以得到元数据信息。
如果修改记录过多放到edits文件中会导致文件数据过大，效率降低，开机恢复时间过长出于这个问题，所以需要定期更新合并fsimage和edit文件。如果这个操作由namenode完成，那么namennode工作效率就会降低。
这也是为什么namenode 和 SecondaryNamenode不在一台服务器节点的原因。

总结如下：

一、

第一次namenode格式化后会产生fsimage和edits文件。如果不是第一次启动则会直接加载fsimage和edits文件到内存
客户端发送增删改请求
namenode记录操作日志到edits文件
namenode执行增删改更新操作加载结果到内存

二、
在此期间

2nn会定期向1nn是否需要checkpoint 也就是合并镜像文件。
如果edit文件过大则会触发合并服务。超过100w大概。
期间如果有增删改元数据操作会被滚动在新的edit文件中。旧的edit文件和fsimage会发送到2nn节点，2nn节点负责fsimage文件和edits文件的合并，产生新的fsimage.chkpoint文件发送给1nn。
1nn接收到后恢复改掉原来的fsimage文件并改名为fsimage，那么最后fsiamge和新的正在滚动的edits文件相加就是最新的元数据了。

checkpoint 服务时间再 hdfs-default.xml 中可以配置 默认是1分钟检查一次

HDFS的五大机制

切片机制：
hdfs中的实际数据都是以快的形式存储在datanode节点当中，块大小可配置一般根据磁盘io速度配置
汇报机制
datanode节点开机启动后会想namenode节点汇报注册。namenode与datanode会有一个心跳机制一般为3妙，块信息也会定时向namenode汇报是否可用默认为6小时。
心跳检测机制
datanode会每隔三秒汇报自己的是否可用信息，如果namenode没有收到该信息，datanode节点会继续汇报10次，3S*10=30秒。如果十分钟后还是没有恢复，则datanode节点会被视为宕机状态，当前机器上的数据namenode会找新的datanode节点做备份。‘
负载均衡
让集群中所有的节点（服务器）的利用率和副本数尽量都保持一致或在同一个水平线上
5.副本机制
默认备份三个副本，如果副本多了会删，少于3会新增。少于三且无法新增则会进入安全模式只能读不能写。

hdfs默认文件块大小为什么是128M，增大或减小有什么影响。

文件块大小可以通过配置文件来修改，至于为什么默认是128M，hadoop1版本默认是64M，2，3版本都是128M。
文件块设置的大小与磁盘传输速度紧密相关，当前普遍寻址时间一般为10ms，磁盘传输速率一般为100M/s，当寻址速率是传输速率的1/100时默认是最佳状态。
如果增大文件块，会导致传输速率缓慢，大量时间浪费在传输文件块，因为文件块信息不一定全部需要
如果减小文件块，会导致寻址时间增加，大量时间用在寻址上。
总之，文件块大小取决于磁盘传输速率。