HDFS入门--基本概念、特性

最新推荐文章于 2022-11-26 11:12:13 发布

MelodyYN

最新推荐文章于 2022-11-26 11:12:13 发布

阅读量265

点赞数 1

分类专栏： Hadoop 文章标签： hdfs hadoop big data

本文链接：https://blog.csdn.net/qq_36593748/article/details/103647543

版权

29 篇文章 0 订阅

订阅专栏

HDFS是Hadoop Distribute File System的简称：Hadoop分布式文件系统。是Hadoop的核心组件，作为最底层的分布式存储服务器。

分布式文件系统解决的问题是大数据存储。它们是横跨在多台计算机上的存储系统。它们为存储和处理超大规模数据提供所需的扩展能力。

1. **文件系统**，用于存储文件，通过统一的命名空间目录树来定位文件；
2. **分布式**，由很多服务器联合起来实现，集群中的服务器有各自的角色。

一般一个HDFS集群是有一个Namenode和一定数量的Datanode组成的。其中Namenode是HDFS集群主节点，Datanode是HDFS集群从节点。

HDFS中的文件在物理上是分块存储的，块的大小可以通过配置参数来规定，Hadoop 2.x版本默认是128M。

Namenode负责维护系统的名字空间，任何对文件系统名字空间或者属性的修改都将被Namenode记录下来。

HDFS会给客户端提供一个统一的抽象目录树，客户端通过路径来访问文件，形如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data

把目录结构及文件分块位置信息叫做元数据。Namenode负责维护整个hdfs文件系统的目录树结构，以及每一个文件所对应的block块信息（block的id以及所在的datanode服务器）。

文件的各个block的具体存储管理由datanode节点承担，每个block都可以在多个datanode上，Datanode需要定时向Namenode汇报自己持有的block信息。

（副本数量通过配置参数dfs.replication，默认是3）

为了容错，文件的所有block都会有副本。每个文件的block大小和副本系数都是可以配置的。应用程序可以指定某个文件的副本数目。副本系数可以在文件创建的时候指定，也可以在之后改变。

HDFS是设计成适应一次写入，多次读出的场景，且==不支持文件的修改==。

适合大数据分析的底层存储服务。

不合适用作网盘。原因：修改不方便，网络开销大，成本高。

关注