2020-11-17

最新推荐文章于 2023-04-08 15:28:16 发布

m0_51986800

最新推荐文章于 2023-04-08 15:28:16 发布

阅读量91

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/m0_51986800/article/details/109748366

版权

笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

HDFS即Hadoop分布式文件系统（Hadoop Distributed Filesystem），以流式数据访问模式来存储超大文件，它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。

NDFS架构：
个HDFS集群包含一个单独的NameNode和多个DataNode。HDFS采用一种称为rack-aware的策略。Rack1 和Rack2 在这里插入图片描述备份数据的存放：备份数据的存放是HDFS可靠性和性能的关键。HDFS采用一种称为rack-aware的策略来决定备份数据的存放。通过一个称为Rack Awareness的过程，NameNode决定每个DataNode所属rack id。缺省情况下，一个block块会有三个备份，一个在NameNode指定的DataNode上，一个在指定DataNode非同一rack的DataNode上，一个在指定DataNode同一rack的DataNode上。这种策略综合考虑了同一rack失效、以及不同rack之间数据复制性能问题。副本的选择：为了降低整体的带宽消耗和读取延时，HDFS会尽量读取最近的副本。如果在同一个rack上有一个副本，那么就读该副本。如果一个HDFS集群跨越多个数据中心，那么将首先尝试读本地数据中心的副本。安全模式：系统启动后先进入安全模式，此时系统中的内容不允许修改和删除，直到安全模式结束。安全模式主要是为了启动检查各个DataNode上数据块的安全性
NDFS核心组件：NameNode
1、NameNode是HDFS的核心模块，也是HDFS架构的master。NomeNode一点宕机则整个HDFS服务不可用。
2、NameNode仅仅存储HDFS的元数据：文件系统中的文件目录结构，并且能跟踪整个集群中的文件。3、NameNode不存储实际的文件数据，实际数据是存储在DataNode中，他存储的是文件分块的基础数据；能通过文件获取文件的快列表及其分布在哪些dataNode上。4、NameNode并不会将文件的分块数据持久化存储，这些信息会在HDFS启动时由各个dataNode上报过来。他把这些数据存入内存中。并且会定时对内存中的数据进行快照。所以对于NameNode节点的机器内存应该大一些。5、NameNode在hadoop 2.0版本之前是单点的，Hadoop 2.0版本才提出了高可用 (High Availability, HA) 解决方案，并且经过多个版本的迭代更新，已经广泛应用于生产环境