Hadoop分布式文件系统（HDFS）

最新推荐文章于 2024-09-07 23:30:03 发布

炫码

最新推荐文章于 2024-09-07 23:30:03 发布

阅读量4.7k

点赞数 1

分类专栏： Hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/XueFengPlay/article/details/78869007

版权

HDFS是Hadoop项目的核心子项目，用于处理和存储超大文件，支持流式数据访问和高吞吐量。设计时考虑了硬件错误的常态，采用副本复制策略保证容错性。HDFS具有透明性、并发控制、可伸缩性、容错性和安全需求。文件以block形式分散存储，读写时并发执行，并具备负载均衡策略。

摘要由CSDN通过智能技术生成

HDFS简介：

HDFS（Hadoop Distributed File System）是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。
它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集的应用处理带来了很多便利。
这里写图片描述

1、HDFS要求与限制

能处理超大文件
HDFS以支持大数据集合为目标，文件大小一般都在千兆至T字节，一个单一HDFS实例应该能支撑数以千万计的文件。

流式数据访问
HDFS设计的思想：一次写入、多次读取(write-one-read-many访问模型)。一个文件经过创建和写入，关闭之后就不需要改变。
这一假设简化了数据一致性问题，使高吞吐量的数据访问成为可能。

使用商用硬件
Hadoop不需要运行在昂贵并且高可靠性的硬件上，因此，硬件错误是常态。
HDFS可能是有成百上千的server组成，任何一个组件都可能失效，因此错误检测和快速、自动地恢复是HDFS的核心架构目标。
HDFS在面对这种故障时，被设计为能够继续运行而不让用户觉察到明显的中断。

低延迟数据访问
HDFS为达到高数据吞吐量而优化的，这可能会以延迟为代价。因此，需要毫秒范围内低延迟访问数据的应用不适合HDFS。

小文件存储问题
HDFS中的名称节点（Namenode）存储着文件系统的元数据，因此文件数量的限制也由NameNode的内存大小决定。
HDFS上每个文件索引数据块的大小约为150个字节，因此，HDFS上存储文件个数的上限就能确定了。

文件随机读写限制
HDFS中的文件只有一个写入者，而且写操作总是在文件的末尾。它不支持多个写入者，或是在文件的任意位置修改。