HDFS、YARN、MapReduce概述及三者之间的关系(图解)

仨猫俩枣

已于 2024-01-20 22:43:06 修改

阅读量3.8k

点赞数 35

文章标签： hdfs mapreduce hadoop

于 2024-01-20 22:36:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HGl1327401792/article/details/135721190

版权

本文详细介绍了Hadoop分布式文件系统(HDFS)的架构、组成部分、工作原理，以及MapReduce的执行流程和YARN资源调度平台的角色。重点阐述了HDFS的写入和读取流程，以及HDFS与MapReduce、YARN之间的协同作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、HDFS架构概述

1、HDFS定义

HDFS(Hadoop Distributed File System) 是一种分布式文件系统，用于处理在商业硬件上运行的大型数据集。它用于将单个 Apache Hadoop 集群扩展到数百（甚至数千）个节点。

HDFS 是 Apache Hadoop 的主要组件之一，其他组件包括 MapReduce 和 YARN。
HDFS的使用场景：适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。

2、HDFS组成

HDFS由NameNode(主节点)、SecondaryNameNode（辅助节点）、DataNode（从节点）构成，

其中NameNode负责管理整个HDFS集群，SecondaryNameNode辅助NameNode管理元数据，DataNode负责存储实际的数据块(一个block块默认大小128MB)和对数据块的读、写操作。

2.1Block块

每一个文件可以配置副本数量，默认是3，副本的作用是防止因某个DataNode挂掉或磁盘损坏而导致数据丢失，除此之外块副本还可以提高块可读取的节点，提高mapreduce计算任务向数据移动的概率。

因为同一个DataNode放置相同的块数据是没有意义的，所以NameNode不允许DataNode具有同一块的多个副本，即副本数量配置不能大于DataNode节点的数量。

每个文件可以在写入时指定这个文件块的副本数量，也可以在未来修改某个文件的块副本数量，文件块的副本数量配置作为块元数据的一部分保存在NameNode中。

3.HDFS的特点

心跳机制

DataNode会定时（3秒）向NameNode发送心跳包，告知NameNode自己的还在活跃，如果超过一定时间（630秒）NameNode未收到DataNode的心跳包，就会认为该DataNode宕机了，此时会该DataNode的数据块交由其他活跃的DataNode储存。所有的DataNode每6个小时向NameNode汇报一次自己完整的数据块信息，供NameNode校验更新。

负载均衡

NameNode会保证所有的Dat

最低0.47元/天解锁文章

博客等级

码龄1年

2
原创

67
点赞

75
收藏

183
粉丝

关注

私信

热门文章

最新评论

HiveSQL分区的作用及创建分区表案例演示(图解)
人间指南编辑部李冬宝: 请问博主用的什么平台测试代码呀~
HiveSQL分区的作用及创建分区表案例演示(图解)
征途黯然.: This article provides a wealth of information about HiveSQL分区的作用及创建分区表案例演示图解 and is quite profound.
HiveSQL分区的作用及创建分区表案例演示(图解)
CSDN-Ada助手: 恭喜你开始了博客创作，标题看起来很吸引人！我觉得你可以在下一篇博客中分享一些实际应用场景，比如在实际项目中如何使用HiveSQL分区表进行数据管理和优化。希望你能继续坚持下去，加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
HiveSQL分区的作用及创建分区表案例演示(图解)
全栈小5: 博主的深度理解和清晰的表达方式使复杂的技术概念变得容易理解。感谢分享，这对于像我这样的技术爱好者来说是一份宝贵的资源。期待更多精彩的内容【HiveSQL分区表的作用及创建分区表案例演示(图解)，博主这篇文章，值得一看】
HiveSQL分区的作用及创建分区表案例演示(图解)
纪祥_ee1: 博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文，同时也希望可以来我博客指导我一番！

大家在看

最新文章

HiveSQL分区的作用及创建分区表案例演示(图解)

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。