大数据学习之分布式文件系统(HDFS)

1、HDFS数据读写的基本单元是什么?

快是数据读写的基本单元,默认快大小是64MB,不过如果一个文件的大小小于一个一个块大小,它并不占用整个数据块的空间。

2、块的大小为什么设计上要明显大于普通文件系统?

HDFS在快的大小设计上明显要大于普通文件系统,原因是为了最小化寻址开销,HDFS的寻址开销不仅包括磁盘寻道开销,还包括数据块的定位开销,因此以块为单位读写数据,可以把磁盘寻道时间分摊到大量数据中。

3、HDFS采用抽象的块概的好处?

1)支持大规模文件存储,文件以块为单位存储,一个文件可以被分拆成若干个文件块,不同的文件快可以被分发到不同的节点上,因此一个文件大小可以不会受到单个节点的储存容量限制,可以远远大于网络中任意节点的存储容量。

2)简化系统设计

3)适合数据备份

4、HDFS的名称节点和数据节点的作用?

名称节点:负责文件和目录的创建、删除、和重命名等,管理者数据节点和文件快的映射关系,同时负责管理分布式文件系统的命名空间,保存了两个核心的数据结构,FsImage和EditLog。FsImage负责维护文件系统树以及文件树中所有的文件和文件夹的元数据,操作日志文件EditLog中记录了所有针对文件的创建、重命名等操作。

(HDFS命名空间包括目录、文件和块,命名空间管理是指命名空间支持对HDFS中目录、文件和块做类似于文件系统的创建、修改、删除等基础操作。在当前的HDFS体系中,在整个HDFS集群中只有一个命名空间,并且是唯一的名称节点,该节点负责对这个命名空间进行管理)

数据节点:负责数据的存储和读取。

5、第二名称节点解决的问题和作用?

解决的问题:为了有效解决EditLog逐渐变大的问题,HDFS设计了第二名称节点

作用:

1)EditLog和FsImage的合作操作

2)作为名称节点的检查点:在HDFS的设计中,并不支持把系统直接切换到第二名称节点,第二名称节点只是起到了名称节点的检查点作用,并不能起到热备份的作用。即使有了第二名称节点的存在,当名称节点发生故障时,系统还是会丢失部门元数据系统。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值