2-Hadoop的HDFS详解(一)_名称节点是保存在内存中的,因此,名称节点能够容纳的对象(文件、块)的个数会受到内-CSDN博客

本文链接：https://blog.csdn.net/qnvhuang/article/details/89174424

Hadoop之HDFS<一>：
脑图：未完成部分见下章
目录：
HDFS的由来和相关概念
HDFS的体系结构，HDFS的存储原理
HDFS的数据读写过程
HDFS编程实践

HDFS简介：

全称：Hadoo Distributed File System
目的：为了解决海量数据的分布式存储问题。

分布式文件系统的起源：
随着海量数据的产生，单机无法存储这么多数据，需要借助计算机集群来处理海量的数据。
通常企业里面的集群长这样：

集群里面有很多的机架，每一个机架上面存着很多的机器，每一个机器我们称之为节点，大概一个机架上面有30~40个节点。机架内部的机器和机架之间通过光纤交换机连接，不同机器之间存在主从
关系，主节点存储文件目录(元数据)信息，从节点存储数据。
而HDFS遵从这样的一种结构诞生。

HDFS要实现的目标：

●兼容廉价的硬件设备
●流数据读写 ：传统文件系统对文件进行读写时以块为单位，每一次可以读取你想要的那一块数据
			HDFS是对大规模数据的访问，不会去对某一个文件的子集访问或者访问一块一块的数据
●大数据集
●简单的文件模型　：牺牲一些相关的性能获得批处理的特性。只允许追加，不允许修改数据。
●强大的跨平台兼容性：HDFS由Java语言实现的，具有良好的跨平台特性。

HDFS的自身局限性：

●不适合低延迟数据访问 ：HDFS是面向大规模数据集的流式读写，一次读取就是全部或者大部分数据
而不是非常精确地定位到某一个数据，这就导致了想得到想要的数据需要把整个数据读出来在进行筛选。
所以其实时性并不高，另一种分布式数据库HBase 支持实时处理需求。
●无法高效存储大量小文件：HDFS 是通过元数据来指引客户端去某个节点寻找相关文件，这些元数据会被保存到内存中，
建立索引数据结构，如果小文件过多，导致内存中的元数据过多，则索引效率越来越低，耗费时间越来越长。
●不支持多用户写入及任意修改文件

HDFS相关概念：

块：HDFS默认一个块64MB(1.0版本，2.0版本中默认为128MB)，一个文件被分成多个块，以块作为存储单位 块的大小远远大于普通文件系统，可以最小化寻址开销 
HDFS采用抽象的块概念可以带来以下几个明显的好处： 
	降低寻址开销：三级寻址：寻找元数据目录->数据节点->数据节点取数据
    ●  支持大规模文件存储：文件以块为单位进行存储，一个大规模文件可以被分拆 成若干个文件块，
	不同的文件块可以被分发到不同的节点上，因此，一个文件的大小 不会受到单个节点的存储容量的限制，可以远远大于网络中任意节点的存储容量 
    ●    简化系统设计：首先，大大简化了存储管理，因为文件块大小是固定的，这样 就可以很容易计算出一个节点可以存储多少文件块；其次，方便了元数据的管理，元数据不需要和文件块一起存储，可以由其他系统负责管理元数据 
    ●    适合数据备份：每个文件块都可以冗余存储到多个节点上，大大提高了系统的 容错性和可用


名称节点与数据节点：图HDFS主要组件的功能

名称节点（NameNode）

名称节点又叫做主节点，它相当于HDFS集群的管家，负责记录并管理如何将要存储进HDFS里的文件进行切分，分发到哪个数据节点，存储这数据目录信息。
名称节点的数据结构：
•在HDFS中，名称节点（NameNode）负责管理分布式文件系统的命名空间 （Namespace），保存了两个核心的数据结构，即FsImage和EditLog 
•名称节点记录了每个文件中各个块所在的数据节点的位置信息 


EditLog文件：
•操作日志文件EditLog中记录了所有针对文件的创建、删除、重命名等操作 

FsImage文件：
•FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据 
•FsImage文件包含文件系统中所有目录和文件inode的序列化形式。每个inode是一个文件或目录的元数据的内部表示，
并包含此类信息：文件的复制等级、修改和访问 时间、访问权限、块大小以及组成文件的块。对于目录，则存储修改时间、权限和配 额元数据 

•FsImage文件没有记录块存储在哪个数据节点。而是由名称节点把这些映射保留在内存中，这个信息单独在内存中一个区域维护，当数据节点加入HDFS集群时，
数据节点会把自己所包含的块列表告知给名 称节点，此后会定期执行这种告知操作，以确保名称节点的块映射是最新的

名称节点的启动：
•在名称节点启动的时候，它会将FsImage文件中的内容加载到内存中，之后再执行 EditLog文件中的各项操作，
使得内存中的元数据和实际的同步，存在内存中的元数据支持客户端的读操作。 

•一旦在内存中成功建立文件系统元数据的映射，则创建一个新的FsImage文件和一个空的EditLog文件 

•名称节点起来之后，HDFS中的更新操作会重新写到EditLog文件中，因为FsImage 文件一般都很大（GB级别的很常见），
如果所有的更新操作都往FsImage文件中添 加，这样会导致系统运行的十分缓慢，但是，如果往EditLog文件里面写就不会这样 ，
因为EditLog 要小很多。每次执行写操作之后，且在向客户端发送成功代码之前， edits文件都需要同步更新 

元数据包含的内容：这个文件是什么
				  这个文件被分了多少块
				  每个块和文件是怎样映射的
				  每个块存储到哪个服务器上

NameNode启动过程

名称节点运行期间EditLog不断变大的问题

•在名称节点运行期间，HDFS的所有更新操作都是直接写到EditLog中，久而久之，EditLog件将会变得很大 
•虽然这对名称节点运行时候是没有什么明显影响的，但是，当名称节点重启的时候，
名称节点需要先将FsImage里面的所有内容映像到内存中，然后再一条一条地执行EditLog中的记录，
当 EditLog文件非常大的时候，会导致名称节点启动操作非常慢，而在这段时间内HDFS系统处于安全模式，一直无法对外提供写操作，影响了用户的使用

如何解决？答案是：SecondaryNameNode第二名称节点
第二名称节点是HDFS架构中的一个组成部分，它是用来保存名称节点中对HDFS 元数据信息的备份，并减少名称节点重启的时间。SecondaryNameNode一般是单独运行在一台机器上

第二名称节点（SecondaryNameNode）：
SecondaryNameNode的工作情况： 图：Namenode 与SecondaryNamenode
（1）SecondaryNameNode会定期和NameNode 通信，请求其停止使用EditLog文件，暂时将新的写操作
写到一个新的文件edit.new上来，这个操作是瞬间完成，上层写日志的函数完全感觉不到差别；   
（2）SecondaryNameNode通过HTTP GET 方式从NameNode上获取到FsImage和EditLog文件，并下载到本地的相应目录下；   
（3）SecondaryNameNode将下载下来的 FsImage载入到内存，然后一条一条地执行 EditLog文件中的各项更新操作，
使得内存中的 FsImage保持最新；这个过程就是EditLog和 FsImage文件合并；   
（4）SecondaryNameNode执行完（3）操 作之后，会通过post方式将新的FsImage文件发 送到NameNode节点上   
（5）NameNode将从SecondaryNameNode 接收到的新的FsImage替换旧的FsImage文件， 同时将edit.new替换EditLog文件，通过这个过程 EditLog就变小了 

数据节点（DataNode）
•数据节点是分布式文件系统HDFS的工作节点，负责数据的存储和读取，会根据客
 户端或者是名称节点的调度来进行数据的存储和检索，并且向名称节点定期发送自己 所存储的块的列表 

•每个数据节点中的数据会被保存在各自节点的本地Linux文件系统

所以讲了这么多，是不是对Hadoop的体系结构有了一定的认识？

HDFS采用了主从（Master/Slave）结构模型，一个HDFS集群包括一个名称节点（ NameNode）和若干个数据节点（DataNode）。
HDFS主从结构
名称节点作为中心服务器，负责管理文件系统的命名空间及客户端对文件的访问。集群中的数据节点一般是一个节点运行一个数据节点进程，
负责处理文件系统客户端的读/写请求，在名称节点的统一调度下进行数据块的创建、删除和复制等操作。
每个数据节点的数据实际上是保存在本地Linux文件系统中。

HDFS命名空间管理：

• HDFS的命名空间包含目录、文件和块 
• 在HDFS1.0体系结构中，在整个HDFS集群中只有一个命名空间，并且只有唯一一个名称节点，该节点负责对这个命名空间进行管理 
• HDFS使用的是传统的分级文件体系，因此，用户可以像使用普通文件系统一样，创建、删除目录和文件，在目录间转移文件，重命名文件等

HDFS通信协议：

• HDFS是一个部署在集群上的分布式文件系统，因此，很多数据需要通过网络进行 传输 
• 所有的HDFS通信协议都是构建在TCP/IP协议基础之上的 
• 客户端通过一个可配置的端口向名称节点主动发起TCP连接，并使用客户端协议与 名称节点进行交互 
• 名称节点和数据节点之间则使用数据节点协议进行交互 
• 客户端与数据节点的交互是通过RPC（Remote Procedure Call）来实现的。在设 计上，名称节点不会主动发起RPC，而是响应来自客户端和数据节点的RPC请求

HDFS体系结构的局限性：

HDFS只设置唯一一个名称节点，这样做虽然大大简化了系统设计，但也带来了一些明显的局限性，具体如下：
（1）命名空间的限制：名称节点是保存在内存中的，因此，名称节点能够容纳的对象（文件、块）的个数会受到内存空间大小的限制。
（2）性能的瓶颈：整个分布式文件系统的吞吐量，受限于单个名称节点的吞吐量。
（3）隔离问题：由于集群中只有一个名称节点，只有一个命名空间，因此，无法对不同应用程序进行隔离。
（4）集群的可用性：一旦这个唯一的名称节点发生故障，会导致整个集群变得不可用。
PS：SecondaryNameNode 是NameNode的冷备份，所谓冷备份是指原来的NameNode故障以后，SecondaryNameNode不能马上替代主节点工作。
需要一段时间慢慢恢复，在Hadoop2.0版本设置了两个备份主节点，还有热备节点。

HDFS存储原理：

• 冗余数据保存：在HDFS中，每个数据都被冗余保存，冗余因子默认是３，优点：
（1）加快数据传输速度（2）容易检查数据错误（3）保证数据可靠性
• 数据存取策略：
存：
•第一个副本：放置在上传文件的数据节点；如果是集群外提交，则随机挑选一台磁盘不太满、CPU不太忙的节点
•第二个副本：放置在与第一个副本不同的机架的节点上
•第三个副本：与第一个副本相同机架的其他节点上
•更多副本：随机节点
取：
•HDFS提供了一个API可以确定一个数据节点所属的机架ID，客户端也可以调用API 获取自己所属的机架ID
•当客户端读取数据时，从名称节点获得数据块不同副本的存放位置列表，列表中包含了副本所在的数据节点，
可以调用API来确定客户端和这些数据节点所属的机架ID，当发现某个数据块副本对应的机架ID和客户端对应的机架ID相同时，
就优先选择该副本读取数据，如果没有发现，就随机选择一个副本读取数据

数据错误与恢复*

	•名称节点出错：有SecondaryNameNode备份恢复，1.0冷备份，2.0可以直接用热备份
	•数据节点出错：
		•每个数据节点会定期向名称节点发送“心跳”信息，向名称节点报告自己的状态 
		•当数据节点发生故障，或者网络发生断网时，名称节点就无法收到来自一些数据节点的心跳信息，
		这时，这些数据节点就会被标记为“宕机”，节点上面的所有数据都 会被标记为“不可读”，名称节点不会再给它们发送任何I/O请求 
		•这时，有可能出现一种情形，即由于一些数据节点的不可用，会导致一些数据块的 副本数量小于冗余因子 
		•名称节点会定期检查这种情况，一旦发现某个数据块的副本数量小于冗余因子，就 会启动数据冗余复制，为它生成新的副本 
		•HDFS和其它分布式文件系统的最大区别就是可以调整冗余数据的位
	•数据出错：
		•网络传输和磁盘错误等因素，都会造成数据错误 
		•客户端在读取到数据后，会采用md5和sha1对数据块进行校验，以确定读取到正确 的数据 
		•在文件被创建时，客户端就会对每一个文件块进行信息摘录，并把这些信息写入到 同一个路径的隐藏文件里面 
		•当客户端读取文件的时候，会先读取该信息文件，然后，利用该信息文件对每个读 取的数据块进行校验，如果校验出错，
		客户端就会请求到另外一个数据节点读取该文件块，并且向名称节点报告这个文件块有错误，名称节点会定期检查并且重新复制这 个块