HDFS入门--基本概念、特性

HDFS入门

1.HDFS基本概念
1.1HDFS介绍

​ HDFS是Hadoop Distribute File System的简称:Hadoop分布式文件系统。是Hadoop的核心组件,作为最底层的分布式存储服务器。

分布式文件系统解决的问题是大数据存储。它们是横跨在多台计算机上的存储系统。它们为存储和处理超大规模数据提供所需的扩展能力

1.2HDFS设计目标
  • 硬件故障是常态,故障检测和自动快速恢复是HDFS的核心架构目标;
  • HDFS相较于数据访问的反应时间,更注重数据访问的高吞吐量;
  • 支持大文件,应该提供很高的聚合数据带宽;
  • write-one-read-many访问模型,一次写入多次读取。这简化数据一致性问题,使得高吞吐量的数据访问成为可能;
  • 移动计算的代价比移动数据的代价低;
  • 在异构的硬件和软件平台上的可移植性。
2.HDFS特性
1. **文件系统**,用于存储文件,通过统一的命名空间目录树来定位文件;
2. **分布式**,由很多服务器联合起来实现,集群中的服务器有各自的角色。
2.1master/slave架构

​ 一般一个HDFS集群是有一个Namenode和一定数量的Datanode组成的。其中Namenode是HDFS集群主节点,Datanode是HDFS集群从节点。

2.2分块存储

​ HDFS中的文件在物理上是分块存储的,块的大小可以通过配置参数来规定,Hadoop 2.x版本默认是128M。

2.3名字空间(NameSpace)

Namenode负责维护系统的名字空间,任何对文件系统名字空间或者属性的修改都将被Namenode记录下来。

​ HDFS会给客户端提供一个统一的抽象目录树,客户端通过路径来访问文件,形如:hdfs://namenode:port/dir-a/dir-b/dir-c/file.data

2.4Namenode元数据管理

​ 把目录结构及文件分块位置信息叫做元数据。Namenode负责维护整个hdfs文件系统的目录树结构,以及每一个文件所对应的block块信息(block的id以及所在的datanode服务器)。

2.5Datanode数据存储

​ 文件的各个block的具体存储管理由datanode节点承担,每个block都可以在多个datanode上,Datanode需要定时向Namenode汇报自己持有的block信息。

​ (副本数量通过配置参数dfs.replication,默认是3)

2.6副本机制

​ 为了容错,文件的所有block都会有副本。每个文件的block大小和副本系数都是可以配置的。应用程序可以指定某个文件的副本数目。副本系数可以在文件创建的时候指定,也可以在之后改变。

2.7一次写入,多次读出

​ HDFS是设计成适应一次写入,多次读出的场景,且==不支持文件的修改==。

​ 适合大数据分析的底层存储服务。

​ 不合适用作网盘。原因:修改不方便,网络开销大,成本高。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MelodyYN

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值