HADOOP学习连载:HDFS架构解读

    Hadoop分布式文件系统(HDFS)是为了存储海量数据,并为分布在网络中的大量客户端提供数据访问。

   能够保存的数量在TB或者PB级,将数据散布在大量机器上,并且可靠地存储数据,使用数据复制方法。

   高速流式读取,顺序读取,避免查找。

   是一种块结构的文件系统。单个文件被拆分成固定大小的块,而这些块号村在HADOOP集群上。一个文件可以由多个块组成,这些块存储在不同的DataNode上。

   NAMENODE将整个集群文件系统的所有元数据保存在内存中。

   HDFS块默认的大小是64MB

   HDFS文件组织的缺点是一个文件需要多个DataNode来提供服务,这意味着如果这些机器中任何一台失效的话,该文件就变得不可用。为了避免此问题,HDFS在多台机器上对该块进行复制。

     HDFS中数据复制的实现是写操作的一部分,采用数据管道的形式。

    客户端向HDFS文件写入数据--->本地文件---->累积到一整块-----> 请求NameNode保存块副本的DataNode列表----->以4KB数据块从本地写入首个DataNode---->写下个DataNode--->最后一个DataNode

 

   如果某个DataNode失效,它将被从管道中移除,当前块写操作完成后,NameNode会重新复制该块,以补偿由于DataNode失效而造成的副本缺失。

   NameNode 会周期性接收来自每个DataNode的心跳和块报告。心跳用于确保DataNode功能正常,而块报告可以验证DataNode上的块列表和NameNode中的信息是否一致。

  HDFS数据复制的最重要特性叫做机架感知。

 

  

  

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值