Hadoop学习（二） HDFS介绍

最新推荐文章于 2023-08-13 11:42:27 发布

于鲲LaNce

最新推荐文章于 2023-08-13 11:42:27 发布

阅读量134

点赞数

分类专栏： Hadoop

本文链接：https://blog.csdn.net/YK_LaNce/article/details/100041775

版权

5 篇文章 0 订阅

订阅专栏

随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。 HDFS只是分布式文件管理系统中的一种。

Hadoop分布式文件系统，主要用来解决海量数据的存储问题；它是一个文件系统，用于存储文件，通过统一的命名空间（目录树）来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

HDFS的使用场景：适合一次写入，多次读出的场景，且不支持文件的修改。适合用来做数据分析，并不适合用来做网盘应用。
HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置参数( dfs.blocksize)来规定，默认大小在hadoop2.x版本中是128M，老版本中是64M
HDFS文件系统会给客户端提供一个统一的抽象目录树，客户端通过路径来访问文件
目录结构及文件分块信息(元数据)的管理由namenode节点承担——namenode是HDFS集群主节点，负责维护整个hdfs文件系统的目录树，以及每一个路径（文件）所对应的block块信息（block的id，及所在的datanode服务器）
文件的各个block的存储管理由datanode节点承担---- datanode是HDFS集群从节点，每一个block都可以在多个datanode上存储多个副本（副本数量也可以通过参数设置dfs.replication）

优点	缺点
高容错性；数据自动保存多个副本，它通过增加副本的形式提高容错性，某一个副本丢失后，可以自动恢复。	不适合低延时数据访问，比如毫秒级的存储数据，是做不到的。
适合处理大数据；（1）数据规模：能够处理数据规模达到GB、 TB、甚至PB级别的数据；（2）文件规模：能够处理百万规模以上的文件数量，数量相当之大。	无法高效的对大量小文件进行存储。（1）存储大量小文件时占用NameNode大量的内存来存储文件目录和块信息。不可取，NameNode的内存有限；（2）小文件存储的寻址时间会超过读取时间，违反了HDFS的设计目标。
可构建在廉价机器上，通过多副本机制，提高可靠性。	不支持并发写入、文件随机修改。（1）一个文件只能有一个写，不允许多个线程同时写；（2）仅支持数据append（追加），不支持文件的随机修改。

关注

专栏目录