【林子雨大数据】HDFS学习笔记

最新推荐文章于 2024-04-19 17:08:10 发布

佩然于心

最新推荐文章于 2024-04-19 17:08:10 发布

阅读量3.3k

点赞数 1

分类专栏：大数据文章标签： HDFS hadoop

本文链接：https://blog.csdn.net/sinat_40302975/article/details/82665637

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

*解决海量式的分布式存储

一、分布式文件系统

1，计算机集群结构

【交换机】：光纤交换机

2.分布式文件系统的结构

主节点：名称节点

从节点：数据节点

二、HDFS

目标：

兼容廉价的硬件设备
流数据读写
大数据集
简单的文件模型
强大的跨平台兼容性

局限性：

不适合低延迟数据访问（实时处理需求）
无法高效存储大量小文件
不支持多用户写入及任意修改文件【为了方便批处理而舍弃了一些功能】

块：

一个块64MB，一个文件被分成多个块，以块作为存储单位
支持大规模文件存储：不同文件块可以被分发到不同的节点上，因此，一个文件的大小不会受到单个节点的存储容量的限制，可以远远大于网络中任意节点的存储容量【脱离单机存储容量限制】
方便了元数据的管理，元数据不需要和文件块一起存储，可以由其他系统负责管理元数据
适合数据备份

名称节点：

*记录了每个文件中各个块所在的数据节点的位置信息

FsImage：包含文件系统中所有目录和文件inode的序列化形式。

每个inode是一个文件或目录的元数据的内部表示，并包含此类信息：

1.文件的复制等级

2.修改和访问时间，访问权限

3.块大小及组成文件的块

对于目录：

1.修改时间、权限和配额元数据

**没有记录块存储在那个数据节点，由名称节点把这些映射保留在内存中

具体过程：

当数据节点加入HDFS集群时，数据节点会把自己所包含的块列表告知给名称节点，此后会定期执行这种告知操作，以确保名称节点的块映射是最新的。

操作日志文件EditLog记录所有针对文件的创建，删除，重命名等操作

名称节点的启动：

1）先将FsImage文件中的内容加载到内存中，之后再执行EditLog文件中的各项操作。

2）在内存中成功建立文件系统元数据的映射，则创建一个新的FsImage文件和一个空的EditLog文件

3）启动后，HDFS的更新操作会重新写到EditLog文件中。每次执行写操作之后，且在向客户端发送成功代码之前，edits文件都需要同步更新

有上述的第3点我们能得到一个问题：

“名称节点运行期间EditLog不断变大的问题”

如何解决？答案是：SecondaryNameNode第二名称节点

第二名称节点：

*处理EditLog不断增大的问题

*保存名称节点中对HDFS 元数据信息的备份，并减少名称节点重启的时间

一般是单独运行在一台机器上

第二名称节点工作情况：

1）与主名称节点定期通信，请求停止EditLog，主名称节点把新的操作写到一个新的文件edits.new上

2）SecondaryNameNode通过HTTP GET方式从NameNode上获取到FsImage和EditLog文件，下载到本地的相应目录下

3）合并两个文件得到新的fsimage文件

4）主名称节点新的fsimage替换旧的fsimage，edits.new替换EditLog文件

数据节点：

*是分布式文件系统HDFS的工作节点，负责数据的存储和读取

*根据客户端或者是名称节点的调度来进行数据的存储和检索，并且向名称节点定期发送自己所存储的块的列表

HDFS体系结构：

*HDFS数据读写过程

读：==》HDFS客户端

1）打开文件 Distributed Filesystem

读取请求，关闭文件

FSDataInputStream	从名称节点获取数据块信息，就近读取数据节点数据
DFSOutputStream	封装在FSDataInputStream，完成写操作
RPC	远程调用名称节点，在文件系统的命名空间新键一个文件名称节点会执行一些检查（文件是否存在，客户端权限）

佩然于心

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
【林子雨大数据】HDFS学习笔记

*解决海量式的分布式存储一、分布式文件系统1，计算机集群结构【交换机】：光纤交换机2.分布式文件系统的结构主节点：名称节点从节点：数据节点二、HDFS目标：兼容廉价的硬件设备流数据读写大数据集简单的文件模型强大的跨平台兼容性局限性：不适合低延迟数据访问（实时处理需求）无法高效存储大量小文件不支持多用户写入及任意修改文件【为了...
复制链接

扫一扫