文章目录
3.1 HDFS简介
分布式文件系统HDFS,全称为“Hadoop平台上的分布式文件系统”,需要实现以下目标:
- 兼容廉价的硬件设备
- 流数据读写
- 大数据集
- 简单的文件模型
- 强大的跨平台兼容性
3.1.1块
HDFS默认一个块64MB,一个文件被分成多个块,以块作为存储单位。
块的大小远远大于普通文件系统,可以最小化寻址开销。
DFS采用抽象的块概念可以带来以下几个明显的好处:
- 支持大规模文件存储:文件以块为单位进行存储,一个大规模文件可以被分拆成若干个文件块,不同的文件块可以被分发到不同的节点上,因此,一个文件的大小不会受到单个节点的存储容量的限制,可以远远大于网络中任意节点的存储容量。
- 简化系统设计:首先,大大简化了存储管理,因为文件块大小是固定的,这样就可以很容易计算出一个节点可以存储多少文件块;其次方便了元数据的管理,元数据不需要和文件块一起存储,可以由其他 系统负责管理元数据
- 适合数据备份:每个文件块都可以冗余存储到多个节点上,大大提高了系统的容错性和可用性
3.1.2NameNode
NameNode(nn):存储文件的元数据,如文件名、文件目录结构、文件属性索引
保存了两个核心的数据结构: