一.HDFS来源
源自于google 的GFS论文,全名Hadoop Distributed File System
主要有下面几个特点
- 易于扩展的分布式文件系统
- 运行在大量的普通廉价的机器上,提供容错机制
- 为大量用户提供性能不错的文件存储服务
二.NameNode
- namenode 是一个中心服务器,单一节点(简化系统的设计和实现),负责管理文件系统的命名空间(name space),以及客户端对文件的访问,
- 文件操作:NameNode 负责对元数据的操作,DataNode 负责处理文件的读写请求,根文件内容相关的数据流不走NameNode,只会询问他和那个NameNode 联系,否则NameNode 会成为整个系统的瓶颈。
- 副本存放在那个DataNode 由NameNode 来决定根据全局情况作出块放置决定,读取文件时NameNode 尽量让用户先读取最近的副本降低块消耗和读取延时。
- NameNode 全权管理数据块的复制,他周期从集群中每个DataNode 接收心跳信号和块状态报告接收到心跳信号意味着该DataNode 节点正常工作。块状态报告包含了一个该DataNode 上所有数据块的列表
三.DataNode
- 一个数据块在DataNode以文件存储在磁盘上,包括两个文件一个是数据本身,一个时元数据和数据块长度,块数据校验以及时间戳
- DataNode 启动后定期的向NameNode 进行注册通过后,周期的向NameNode 发送块数据信息
- 心跳是3秒一次,心跳返回结果带有NameNode 给这个DataNode的命令如复制块数据复制到另一台机器上或者删除某个快,如果超过10分钟没有收到心跳信息则视为该DataNode不可用
- 集群中可以安全退出和加入一些机器
四.文件
- 文件默认切块(默认128M),以块为单位每个块有多个复制本存储在不同的机器上,副本数可以在文件创建的时候生成制定
- NameNode 是主节点存储文件的元数据,如文件名文件目录结构,文件属性(生成时间,副本数,文件权限)以及每个文件的块列表和块所在的DataNode等等
- DataNode 可以在本地文件系统存储数据以及块数据校验。
- 可以创建、删除、移动和重命名文件当文件创建写入和关闭之后不能修改文件内容
五.数据损坏处理
- 当DataNode 读取block的时候他会计算checksum
- 如果计算后的checksum和创建时的block不一致说明文件已经损坏
- client 读其他DataNode 上面的block
- DataNode 标记该块已经损坏,然后复制block达到预期设置的文件备份数
- DataNode 在文件创建后三周后验证其checkSum