【Hadoop-HDFS】HDFS概述介绍（背景及定义、优缺点、组成架构、Block介绍）

最新推荐文章于 2025-04-27 01:15:23 发布

一个写湿的程序猿

最新推荐文章于 2025-04-27 01:15:23 发布

阅读量2.1k

点赞数 4

分类专栏： # Hadoop 文章标签： hdfs hadoop 大数据

本文链接：https://blog.csdn.net/qq_32727095/article/details/107500152

版权

17 篇文章

订阅专栏

一、HDFS 产出背景及定义

1.1.1 HDFS产生背景

随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。

1.1.2 HDFS定义

HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

HDFS的使用场景：适合一次写入，多次读出的场景，且不支持文件内容的随机修改，只能在末尾追加。适合用来做数据分析，并不适合用来做网盘应用。

1.2.1 优点

1）高容错性

2）适合处理大数据

3）可构建在普通的机器上，通过多副本机制，提高可靠性。

1.2.2 缺点

1）不适合低延时数据访问，比如毫秒级的存储数据，是做不到的。

2）无法高效的对大量小文件进行存储。

3）不支持并发写入、文件随机修改。

在这里插入图片描述
1）NameNode（nn）：就是Master，它是一个主管、管理者。

2）DataNode：就是Slave。NameNode下达命令，DataNode执行实际的操作。

3）Client：就是客户端。

4）Secondary NameNode：并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。

在这里插入图片描述

思考：为什么块的大小不能设置太小，也不能设置太大？

总结：HDFS块的大小设置主要取决于磁盘传输速率。