hdfs文件系统基础笔记

最新推荐文章于 2024-08-04 15:57:27 发布

皮蛋double

最新推荐文章于 2024-08-04 15:57:27 发布

阅读量185

点赞数

分类专栏： BigData 文章标签： hadoop 大数据 hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34303259/article/details/106594894

版权

BigData 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

架构设计

HDFS是一个主从（Master/Slave）架构
- 主从是都工作，主备是一个工作。
由一个NameNode和一些DataNode组成
- DataNode建议数量5000以下。
面向文件包含，文件数据（data）和文件元数据（metadata）
NameNode负责存储和管理文件元数据，并维护了一个层次型的文件目录树
DataNode负责存储文件数据（block快），并提供block的读写
DataNode与NameNode维持心跳，并汇报字持有的block信息
Client和NameNode交互文件元数据和DataNode交互文件block数据

Namenode

namenode 是完全基于内存存储文件元数据.目录结构.文件block映射
需要持久化方案可靠性
- EditsLogs 使用日志实时记录操作记录，当进程恢复后重新加载日志内容，- 这是一个增量文件
- FsImage 基于某一个时间点内存中的数据做一个快照，快照是一个二进制文件，按照小时快照。
- 最近时间点的FsImage + 增量的EditsLogs
- 加载顺序，加载FI，加载EL，内存得到了关机前的全量数据。
- FsImage滚动更新到Fsimage快照中。
需要副本放置策略

Datanode

基于本地磁盘保存block（以文件形式）
通过保存block校检和block数据来保证数据完整性
与namenode保持心跳，汇报block列表状态

安全模式

HDFS搭建时初始化会产生一个空的Fsimage
当Namenode启动时，它从硬盘中读取Editlog和Fsimage
将所有的Editlog中的事务作用在内存中的FsImage上
并将这个新版本的FsImage从内存中保存到本地磁盘上
然后删除旧的Editlog，因为这个旧的Editlog的事务都已经作用在FsImage上了
Namenode启动时会进入安全模式不可对外服务，接收所有dataname提交的block信息。
当检测某个数据block的副本达到最小值即认为这个block块安全，当一定比-- 例的block块确认安全后，再额外等待30秒后Namenode退出安全模式，即可对外提供服务。
接下来他会确定哪些数据block块没有达到安全指定数目，会copy到其他dataname上。

SecondaryNameNode (SNN)

目标就是减少editlog，定时合并FsImage。
3600秒或者64M合并一次。

副本防止策略

第一个block副本随机防止
第二个block副本不于第一个的机架在一起
第三个block副本于放置于同第二个机架下一起
其他随机

HDFS写流程

Client和NN连接创建文件元数据
NN判定元数据是否有效
NN触发副本放置策略，返回一个有序的DN列表
Client和DN建立Pipline连接
Client把文件切成packet（64K），并使用chunk（512B）+checksum（4B）填充，这里就是校检码
第一个DN收到packet后本地保存并发送给第二个DN
第二个DN收到packet后本地保存并发送给第三个DN
第一个过程中，上游同时发送下一个packet
生活中类比工厂的流水线，结论，流式相当于变种并行计算
Hdfs使用这种传输方式，副本数对于client是透明的
当block传输完成，DN们各自想NN汇报block信息，同时client传输下一个packet
所以，client的传输和block的汇报也是并行的
注

HDFS读流程

为了降低整体的带宽消耗和读取延时，HDFS会尽量让读取程序读取理他最近的副本。
如果在读取程序的同一个机架上有一个副本，那么就读取该副本。
如果一个HDFS集群跨越多个数据中心，那么客户端也将首先读取本地数据中心的副本。
语义：下载一个文件；
- Clent和NN交互文件元数据获取fileBlockLocation
- NN会按距离策略排序返回
- Client尝试下载block并校验数据完整性
语义：下载一个文件其实是获取文件的所有block元数据，那么子集获取某些block应该可以成立
- hdfs支持client给出文件的offset自定义连接哪些block的DN，自定义获取数据
- 这个是支持计算层的分治、并行计算的核心

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hdfs文件系统基础笔记

架构设计HDFS是一个主从（Master/Slave）架构主从是都工作，主备是一个工作。由一个NameNode和一些DataNode组成DataNode建议数量5000以下。面向文件包含，文件数据（data）和文件元数据（metadata）NameNode负责存储和管理文件元数据，并维护了一个层次型的文件目录树DataNode负责存储文件数据（block快），并提供block的读写DataNode与NameNode维持心跳，并汇报字持有的block信息Client和NameN
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。