Hadoop基础--HDFS/Yarn/MapReduce概述

FunnyPrince_

于 2021-05-19 23:43:15 发布

阅读量497

点赞数

分类专栏： # Hadoop 文章标签：大数据 hadoop spark mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/FunnyPrince_/article/details/117048186

版权

Hadoop 专栏收录该内容

54 篇文章 5 订阅

订阅专栏

1. Hadoop优势(4高)：

1.高可靠性： Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失；
在这里插入图片描述

2.高扩展型： 在集群间分配任务数据，可方便的扩展数以千计的节点；
在这里插入图片描述
3.高效性： 在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度；

4.高容错性： 能够自动将失败的任务重新分配。

2. Hadoop1.x、2.x、3.x区别：

在这里插入图片描述

在Hadoop1.x时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大。
在Hadoop2.x时代，增加了Yarn。Yarn只负责资源的调度，MapReduce只负责运算。
Hadoop3.x在组成上没有变化。

HDFS架构概述：

1.NameNode(nn)：存储文件的元数据，如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限)，以及每个文件的块列表和块所在的DataNode等；
2.DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和；
3.SecondaryNameNode(2nn)：每隔一段时间对NameNode元数据备份。

Yarn架构概述：

Yarn(Yet Another Resource Negotiator)，另一种资源协调者，是Hadoop的资源管理器。
在这里插入图片描述

ResourceManager(RM)：管理整个集群资源(内存、CPU等)；
NodeManager(NM)：管理单个节点服务器资源；
ApplicationMaster(AM)：管理单个任务运行；
Container：容器，相当于一台独立的服务器，里面封装了任务运行所需要的资源，如内存、CPU、磁盘、网络等；

MapReduce架构概述：

MapReduce将计算过程分为两个阶段：Map和Reduce：
1.Map阶段并行处理输入数据；
2.Reduce阶段对Map结果进行汇总；

HDFS/Yarn/MapReduce三者关系：

在这里插入图片描述

大数据技术生态体系：

在这里插入图片描述

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。