HDFS架构详解

一.HDFS来源

源自于google 的GFS论文,全名Hadoop Distributed File System
主要有下面几个特点

  1. 易于扩展的分布式文件系统
  2. 运行在大量的普通廉价的机器上,提供容错机制
  3. 为大量用户提供性能不错的文件存储服务

二.NameNode

  1. namenode 是一个中心服务器,单一节点(简化系统的设计和实现),负责管理文件系统的命名空间(name space),以及客户端对文件的访问,
  2. 文件操作:NameNode 负责对元数据的操作,DataNode 负责处理文件的读写请求,根文件内容相关的数据流不走NameNode,只会询问他和那个NameNode 联系,否则NameNode 会成为整个系统的瓶颈。
  3. 副本存放在那个DataNode 由NameNode 来决定根据全局情况作出块放置决定,读取文件时NameNode 尽量让用户先读取最近的副本降低块消耗和读取延时。
  4. NameNode 全权管理数据块的复制,他周期从集群中每个DataNode 接收心跳信号和块状态报告接收到心跳信号意味着该DataNode 节点正常工作。块状态报告包含了一个该DataNode 上所有数据块的列表

三.DataNode

  1. 一个数据块在DataNode以文件存储在磁盘上,包括两个文件一个是数据本身,一个时元数据和数据块长度,块数据校验以及时间戳
  2. DataNode 启动后定期的向NameNode 进行注册通过后,周期的向NameNode 发送块数据信息
  3. 心跳是3秒一次,心跳返回结果带有NameNode 给这个DataNode的命令如复制块数据复制到另一台机器上或者删除某个快,如果超过10分钟没有收到心跳信息则视为该DataNode不可用
  4. 集群中可以安全退出和加入一些机器

四.文件

  1. 文件默认切块(默认128M),以块为单位每个块有多个复制本存储在不同的机器上,副本数可以在文件创建的时候生成制定
  2. NameNode 是主节点存储文件的元数据,如文件名文件目录结构,文件属性(生成时间,副本数,文件权限)以及每个文件的块列表和块所在的DataNode等等
  3. DataNode 可以在本地文件系统存储数据以及块数据校验。
  4. 可以创建、删除、移动和重命名文件当文件创建写入和关闭之后不能修改文件内容

五.数据损坏处理

  1. 当DataNode 读取block的时候他会计算checksum
  2. 如果计算后的checksum和创建时的block不一致说明文件已经损坏
  3. client 读其他DataNode 上面的block
  4. DataNode 标记该块已经损坏,然后复制block达到预期设置的文件备份数
  5. DataNode 在文件创建后三周后验证其checkSum

欢迎关注,更多福利

这里写图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值