Hadoop存储——HDFS

最新推荐文章于 2024-06-29 17:09:02 发布

Jarvis数据之路

最新推荐文章于 2024-06-29 17:09:02 发布

阅读量1.2k

点赞数

分类专栏： hdfs hadoop 文章标签： hadoop hdfs 大数据

本文链接：https://blog.csdn.net/qq_27960935/article/details/109198782

版权

本文详细介绍了Hadoop的分布式文件系统HDFS，包括HDFS的架构，如NameNode、DataNode和Secondary NameNode的角色。接着，讨论了HDFS的文件上传流程，并概述了MapReduce的工作原理，强调了Combiner、Partitioner和输入输出格式在MapReduce中的作用。最后，简要探讨了K-Means算法及其在Hadoop MapReduce中的实现。

摘要由CSDN通过智能技术生成

文章目录

Hadoop存储——HDFS

Hadoop的存储系统是HDFS（Hadoop Distributed File System）分布式文件系统，对外部客户端而言，HDFS就像一个传统的分级文件系统，可以进行创建、删除、移动或重命名文件或文件夹等操作，与Linux文件系统类似。

1、HDFS架构

关于各个组件的具体描述如下所示：

名称节点（NameNode，仅一个），它在HDFS内部提供元数据服务；第二名称节点（Secondary NameNode），名称节点的帮助节点，主要是为了整合元数据操作（注意不是名称节点的备份）；数据节点（DataNode），它为HDFS提供存储块

（1）名称节点（NameNode）

它是一个通常在HDFS架构中单独机器上运行的组件，负责管理文件系统名称空间和控制外部客户机的访问。 NameNode决定是否将文件映射到DataNode上的复制块上。对于最常见的3个复制块，第一个复制块存储在同一机架的不同节点上，最后一个复制块存储在不同机架的某个节点上。

（2）数据节点（DataNode）

数据节点也是一个通常在HDFS架构中的单独机器上运行的组件。Hadoop集群包含一个NameNode和大量DataNode。数据节点通常以机架的形式组织，机架通过一个交换机将所有系统连接起来。数据节点响应来自HDFS客户机的读写请求。它们还响应来自NameNode的创建、删除和复制块的命令。名称节点依赖来自每个数据节点的定期心跳（heartbeat）消息。每条消息都包含一个块报告，名称节点可以根据这个报告验证块映射和其他文件系统元数据。如果数据节点不能发送心跳消息，名称节点将采取修复措施，重新复制在该节点上丢失的块。

（3）第二名称节点（Secondary NameNode）

第二名称节点的作用在于为HDFS中的名称节点提供一个Checkpoint，它只是名称节点的一个助手节点，这也是它在社区内被认为是Checkpoint Node的原因。

Secondary NameNode会定时到NameNode去获取名称节点的edits，并及时更新到自己fsimage上。这样，如果NameNode宕机，我们也

最低0.47元/天解锁文章

Jarvis数据之路

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hadoop存储——HDFS

文章目录Hadoop存储——HDFS1、HDFS架构（1）名称节点（NameNode）（2）数据节点（DataNode）（3）第二名称节点（Secondary NameNode）2、HDFS文件上传3、MapReduce过程可以解析为如下所示：4. MapReduce组件分析与编程实践4.1．Combiner分析4.2．Partitioner分析4.3.输入输出格式/键值类型4.3.1 输入格式（InputFormat）4.3.2输出格式（OutputFormat）![image-2020092323074
复制链接

扫一扫