hadoop的组成

frimiku

于 2024-01-15 15:18:22 发布

阅读量595

点赞数 7

文章标签： hadoop 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_73339471/article/details/135602453

版权

本文详细介绍了Hadoop架构的核心组成部分，包括HDFS的NameNode、DataNode和SecondaryNameNode，MapReduce的设计理念和组成，以及YARN作为资源管理器的角色。Hadoop通过分布式存储和计算处理大规模数据，强调了其在数据管理和资源调度上的优势。

摘要由CSDN通过智能技术生成

1.Hadoop组成

Hadoop主要由HDFS(分布式文件系统) , MapReduce(分布式计算框架) , YARN(资源管理器) 这三个核心组件构成

1.1 HDFS概述

HDFS，全名为Hadoop Distributed File System，是一个hadoop分布式文件系统，用于文件存储。

HDFS含有三个服务，分别为NameNode，DataNode，Secondary NameNode

1.NameNode (NN)：元数据节点

• NameNode 是HDFS的“大脑”，存储文件的元数据，如文件名，位置，大小，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。

• 一个HDFS集群只有一个Active的NameNode

2.DataNode (DN)：数据节点

• 数据存储节点，保存和检索Block

• 一个集群可以有多个数据节点

3.Secondary NameNode (SNN)：从元数据节点

• 定期合并NameNode的edit logs（编辑日志）到fsimage（镜像）文件中，以防止编辑日志文件过大影响性能

• 辅助NameNode将内存中元数据信息持久化

• 协助优化性能（即是SNN失效，整个系统仍然可用）

HDFS架构

1.2 MapReduce概述

MapReduce，是分布式计算框架。

**设计思路：**分而治之

**组成：**每一个job包含 Map 与 Reduce 两个部分，其中shuffle是包含在map与reduce之间的中间过程。

1.3 YARN概述

YARN，全名为Yet Another Resource Negotiator，是Hadoop的集群资源管理器。

**核心思想:**将资源管理和任务的监控和调度分离.

**由来：**由于Hadoop1.x版本中的问题在于资源问题，主要依靠MapReduce来完成，导致JobTracker压力过大。因此，在Hadoop2.x版本中添加了YARN，用于负责集群资源管理。

2.Hadoop整体认知

1.分布式：
存储：HDFS【hadoop分布式文件系统】（Namenode + Datanode）
计算：MapReduce ： map + shuffle + reduce => 慢，但稳定

2.面向于数据（上传|下载文件,创建目录操作）：

管理数据

NameNode *2 (Active | Standby *N)【一般为2个左右] => 老大

DataNode *N【可以有多个】 =>小弟

3.面向于服务：

管理资源和任务

YARN：

ResourceManager：管资源（CPU,MEM,DISK…） =>老大

applicationManager：管任务（计算） =>老大

nodemanager *N【可以有多个】 =>小弟

关注

7
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
hadoop的组成

HDFS，全名为Hadoop Distributed File System，是一个hadoop分布式文件系统，用于文件存储。HDFS含有三个服务，分别为NameNode，DataNode，Secondary NameNode：元数据节点• NameNode 是HDFS的“大脑”，存储文件的元数据，如文件名位置大小文件目录结构文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。• 一个HDFS集群只有一个Active的NameNode：数据节点。
复制链接

扫一扫

frimiku CSDN认证博客专家 CSDN认证企业博客

码龄2年

33: 原创

1万+: 周排名

4万+: 总排名

1万+: 访问

: 等级

636: 积分

319: 粉丝

336: 获赞

9: 评论

354: 收藏

私信

关注

热门文章

最新评论

大数据之Hadoop（HDFS读文件）
普通网友: 这篇文章是优质之作，内容充实，结构明晰，语言流畅且通俗易懂，适合广大读者阅读。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
流处理(stream)与批处理(batch)讲解
CSDN-Ada助手: 恭喜您撰写了第16篇博客，标题为“流处理(stream)与批处理(batch)讲解”！您的文章内容深入浅出，让读者更加理解了流处理和批处理的概念和区别。希望您能继续保持创作的热情和耐心，分享更多有趣的技术知识和经验。或许在下一篇博客中，可以深入探讨流处理和批处理在实际应用中的优缺点，以及如何选择合适的处理方式。期待您的精彩续篇！愿您在创作的道路上越走越远，不断进步！
Vue2之常用指令
CSDN-Ada助手: 恭喜您撰写第17篇博客！对于Vue2常用指令的介绍让读者受益匪浅。希望您能继续保持创作的热情，分享更多有价值的内容给大家。或许下一步可以考虑深入探讨Vue2的组件化开发或者与后端接口的数据交互等主题，期待您的精彩文章！继续加油！
Java设计模式之合成复用原则
CSDN-Ada助手: 恭喜作者发布了第15篇博客，内容涉及Java设计模式之合成复用原则，深入浅出地介绍了该原则的重要性和应用场景。希望作者能继续保持创作的热情和努力，为大家带来更多有价值的技术分享。建议作者在接下来的创作中，可以考虑结合实际案例进行分析，或者深入探讨设计模式在实际项目中的应用经验，这样可以让读者更好地理解和应用所学知识。期待作者更多精彩的作品！
Java设计模式之迪米特法则
CSDN-Ada助手: 尊敬的博主，恭喜您发布了第14篇博客《Java设计模式之迪米特法则》，内容深入浅出，让人受益匪浅。希望您能继续保持创作的热情和积极性，为我们呈现更多精彩的技术文章。建议您可以考虑深入探讨一些实践案例，或者分享一些个人在项目中的应用经验，相信会更加丰富和有趣。期待您的下一篇作品！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。