HDFS概念

最新推荐文章于 2023-05-05 17:39:08 发布

Visual-3k9hl

最新推荐文章于 2023-05-05 17:39:08 发布

阅读量170

点赞数

文章标签： hdfs hadoop 大数据

本文链接：https://blog.csdn.net/qq_38615944/article/details/129317182

版权

HDFS即Hadoop Distributed File System的简称，是Hadoop抽象文件系统的一种实现。HDFS允许文件通过网络在多台主机上分享存储文件，使应用或者用户看起来和访问本地磁盘一致。

HDFS是Hadoop的核心子项目，是分布式计算中数据存储管理的节点，是基于流式数据访问和处理超大文件的需求而开发的分布式文件系统，非常适合在大规模数据集上应用，同时也是一个具备高度容错的系统

HDFS适用于一次写入多次查询的流式数据访问情况，不是随机访问模式。修改只能先删除再重新上传，不支持并发写，不适合小文件操作。

适用场景：适合一次写入，多次读出的场景，除了append操作之外，不支持文件的修改。适合用来做数据分析，并不适合用来做网盘应用

一个完整的HDFS文件系统通常运行在由网络连接在一起的一组计算机组成的集群上，在这些节点上运行着不同类型的守护进程，例如NameNode、DataNode、SecondaryNameNode，多个节点上不同类型的守护进程相互配合、互相协作，共同为用户提供高效的分布式存储服务

优点：

高容错性
- 数据自动保存多个副本。它通过增加副本的形式，提高容错性
- 某一个副本丢失以后，它可以自动恢复
适合处理大数据
- 数据规模：能够处理数据规模达到GB、TB、甚至PB级别的数据
- 文件规模：能够处理百万规模以上的文件数量，数量相当之大。需要注意不适合使用大量小文件
- 可构建在廉价机器上，通过多副本机制，提高可靠性

缺点：

不适合低延时数据访问，比如毫秒级的存储数据，是做不到的
无法高效的对大量小文件进行存储
- 存储大量小文件的话，它会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的，因为NameNode的内存总是有限的；
- 小文件存储的寻址时间会超过读取时间，它违反了HDFS的设计目标
不支持并发写入、文件随机修改
- 一个文件只能有一个写，不允许多个线程同时写
- 仅支持数据append追加，不支持文件的随机修改。

NameNode就是Master，它是一个主管、管理者
- 管理HDFS的名称空间
- 配置副本策略
- 管理数据块 Block 映射信息
- 处理客户端读写请求
DataNode就是Slave。NameNode下达命令，DataNode执行实际的操作
- 存储实际的数据块
- 执行数据块的读/写操作
Client就是客户端
- 文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行上传
- 与NameNode交互，获取文件的位置信息
- 与DataNode交互，读取或者写入数据
- Client提供一些命令来管理HDFS，比如NameNode格式化
- Client可以通过一些命令来访问HDFS，比如对HDFS增删查改操作
Secondary NameNode辅助NameNode
- 辅助NameNode定期合并Fsimage和Edits，并推送给NameNode
- NameNode宕机后实际上也可以通过SNN上存储的数据进行恢复