大数据技术基础笔记3 分布式文件系统HDFS

3.1 分布式文件系统

计算机集群结构
• 分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群。
• 与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是,目前的分布式文件系统所采用的计算机集群,都是由普通硬件构成的,这就大大降低了硬件上的开销。
在这里插入图片描述

分布式文件系统的结构
分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类
-主节点(Master Node)/名称结点(NameNode)
-从节点(Slave Node)/数据节点(DataNode)
在这里插入图片描述
• 分布式文件系统需满足:
– 透明性
• 对用户来说,无需关心文件被划分成多少块,无需关心文件存在哪里,无需关心集群节点增加或减少造成的影响
– 并发控制
• 一个用户访问文件,不影响其他用户对同一个文件的访问
– 文件复制
• 支持多副本
– 硬件和操作系统异构性
– 可伸缩性
• 节点可随时加入或退出
– 容错
– 安全

3.2 HDFS简介

• 总体而言,HDFS实现了以下目标:
• 兼容廉价的硬件设备
• 流数据读写
• 大数据集
• 简单的文件模型
• 强大的跨平台兼容性
• HDFS特殊的设计,在实现上述优良特性的同时,也使得自身具有一些应用局限性,主要包括以下几个方面:
• 不适合低延迟数据访问
• 无法高效存储大量小文件
• 不支持多用户写入及任意修改文件

3.3 HDFS相关概念


• HDFS默认一个块64MB,一个文件被分成多个块,以块作为存储单位,块的大小远远大于普通文件系统,可以最小化寻址开销。
• HDFS采用抽象的块概念可以带来以下几个明显的好处:
– 支持大规模文件存储,一个文件的大小不会受到单个节点的存储容量的限制,可以远远大于网络中任意节点的存储容量
– 简化系统设计,很容易计算出一个节点可以存储多少文件块;元数据可以单独管理和存储
– 适合数据备份:每个文件块都可以冗余存储到多个节点上,大大提高了系统的容错性和可用性

名称节点和数据节点

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值