HDFS的基本概念

当一台计算机无法存储海量数据时,就对他进行分区,分开在若干台计算机上。然而普通的文件系统无法胜任这一工作,于是,分布式文件系统就应运而生。

HDFS概念

1.数据块:
每个硬盘都有默认的数据块大小,大小不一。他们是磁盘读写数据的最小单位。HDFS中有同样的概念,但是根据其海量数据的要求,一般一个块大小为 128 MB 。比磁盘的块要大得多。这样做的原因是为了将寻址(寻找块的过程)所需时间尽可能地变短。
使用块对文件系统进行抽象,有以下的好处

  • 一个文件的大小可以大于集群中任意一个硬盘,真正实现了文件跨物理平台储存。
  • 简化了存储子系统的设计。由于块的大小是固定,计算一个磁盘上有几个块就很方便。
  • 适合于物理备份,可以将同样的复制在多个机器上,如果有一个机器出现问题,可以从其他地点复制一份过来。
    2.namenode 和 datanode
    HDFS 集群工作时以管理节点(namenode)+工作节点(datanode)。
    namenode 负责管理系统的命名空间。它维护文件系统的文件数以及文件数上的文件和目录,分别存储在命名空间镜像文件和编辑日志文件。这两个文件会保存在 namenode所在的磁盘上。namenode 同时记录每个块所在的节点,这个信息不会被保存,因为会在系统重新启动时重建。
    datanode 是文件系统的工作节点,他们的任务是根据需要,存储并检索数据块,并定期向 namenode 发送他们所存储的块的列表。
    3.容错机制
    如果 namnode 发生故障,整个文件系统中的文件都会丢失。所以hdfs提供了两种机制
  1. 备份持久状态,将上面提到的信息在写入本地磁盘的时候,同时吸入远程挂载的网络文件系统上,
  2. 开启辅助 namenode ,这个节点定期合并主要节点的镜像和日志,这个节点一般和主 namenode 分开在不同的计算机上,因为合并操作比较耗时。我们在启动 HDFS 时总会看到 SecondaryNameNode 进程就是我们说的辅助节点了。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值