分布式存储系统HDFS（特详细）

最新推荐文章于 2024-04-17 13:21:35 发布

_苏小白

最新推荐文章于 2024-04-17 13:21:35 发布

阅读量9k

点赞数 1

本文链接：https://blog.csdn.net/qq_36074043/article/details/78812085

版权

本文详细介绍了Hadoop的分布式存储系统HDFS，包括HDFS的起源、模式分类（单机、伪分布、全分布）、核心组件（NameNode、DataNode、SecondaryNameNode）及其作用，以及HDFS的设计思想如高容错性、海量数据存储、文件分块存储等。还讨论了NameNode的FsImage和EditLog，以及SecondaryNameNode的角色和执行流程。

摘要由CSDN通过智能技术生成

Hadoop基础

Hadoop核心组件

1.分布式存储系统HDFS(Hadoop Distributed File System)分布式存储层

2.资源管理系统YARN(Yet Another Resource Negotiator)集群资源管理层

3.分布式计算框架MapReduce分布式计算层

模式分类

1.单机模式（Standalone）
单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时，Hadoop无法了解硬件安装环境，便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时，Hadoop会完全运行在本地。因为不需要与其他节点交互，单机模式就不使用HDFS，也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。

2.伪分布模式（Pseudo-Distributed Mode）
伪分布模式在“单节点集群”上运行Hadoop，其中所有的守护进程都运行在同一台机器上。该模式在单机模式之上增加了代码调试功能，允许你检查内存使用情况，HDFS输入输出，以及其他的守护进程交互。5个进程的介绍http://www.aboutyun.com/thread-7088-1-1.html

3.全分布模式（Fully Distributed Mode）
Hadoop守护进程运行在一个集群上。
评论：意思是说master上看到namenode,jobtracer，secondarynamenode可以安装在master节点，也可以单独安装。slave节点能看到datanode和nodeManage

HDFS的起源

源于Google的GFS论文发表于2003年10月 HDFS是GFS的克隆版！

什么是GFS? http://www.cnblogs.com/999-/p/7120490.html

GFS是一个可扩展的分布式文件系统，用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上，并提供容错功能。它可以给大量的用户提供总体性能较高的服务。
GFS 也就是 google File System，Google公司为了存储海量搜索数据而设计的专用文件系统。

HDFS

HDFS（Hadoop Distributed File System，Hadoop 分布式文件系统）是一个高度容错性的系统，适合部署在廉价的机器上。HDFS 能提供高吞吐量的数据访问，适合那些有着超大数据集（largedata set）的应用程序。

核心
NameNode
DataNode
SecondaryNameNode(NameNode的快照)

HDFS是一个主从结构，一个HDFS集群由一个名字节点（NameNode）和多个数据节点（DataNode）组成。

HDFS的优点（设计思想）