【Hadoop】分布式文件系统 HDFS

和瑚

已于 2023-11-29 17:54:14 修改

阅读量711

点赞数

分类专栏： # Hadoop 文章标签： hadoop hdfs 大数据

于 2023-11-26 17:48:22 首次发布

本文链接：https://blog.csdn.net/kazuhura/article/details/134629860

版权

2 篇文章 0 订阅

订阅专栏

一、介绍

HDFS （Hadoop Distributed File System）是 Hadoop 下的分布式文件系统，具有高容错、高吞吐量等特性，可以部署在低成本的硬件上。

HDFS 遵循主/从架构，由单个 NameNode(NN) 和多个 DataNode(DN) 组成：

在这里插入图片描述
注：

HDFS在存储时，以block的形式存储数据，默认大小为128M（2.x和3.x版本）
- 如果文件超过128M，就会被切分为多个block存储
- 如果文件不足128M，则只产生一个block（只占用实际大小的磁盘空间）

为了保证容错性，HDFS 提供了数据复制机制。HDFS 将每一个文件存储为一系列block，每个块由多个副本来保证容错，块的大小和复制因子可以自行配置（默认情况下，块大小是 128M，默认复制因子是 3）
在这里插入图片描述

大型的 HDFS 实例在通常分布在多个机架的多台服务器上。在大多数情况下，同一机架中的服务器间的网络带宽大于不同机架中的服务器之间的带宽。因此 HDFS 采用机架感知副本放置策略，对于常见情况，当复制因子为 3 时，HDFS 的放置策略是：

此策略可以减少机架间的写入流量，从而提高写入性能。
在这里插入图片描述
注意：同一个 dataNode 上不允许有同一个块的多个副本

优点
- 通透性：即使有通过网络访问文件的操作，但在程序和用户看来就像是在访问本地磁盘
- 高容错：多副本保证即使部分硬件损坏也不会导致全部数据的丢失
- 性价比高：可以运行在大量的廉价机器上，节约成本
缺点
- 不适合低延时数据访问：数据延时无法支持“毫秒”级别的数据存储
- 不适合小文件存储：主节点的内存是有限的，不论大小文件都会在主节点中保存元信息，存储大量小文件没有意义，违背HDFS的设计理念
- 不支持文件并发写入和随机修改：一个文件同时只能有一个线程执行写操作。只支持文件追加，不支持数据的随机访问和修改