初识Hadoop（下）-MapReduce，YARN的初掌握-大数据入门

最新推荐文章于 2024-08-07 22:25:18 发布

️一条大咸鱼

最新推荐文章于 2024-08-07 22:25:18 发布

阅读量212

点赞数 2

分类专栏： Hadoop 文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mx13156/article/details/125646490

版权

Hadoop 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

先来看2个问题：1.什么是MapReduce，以及原理？2.yarn的组件和功能有什么？

首先来说第一个问题，MapReduce是Hadoop三大马车中的一架，即计算框架，先将数据进行局部计算即map阶段，在将数据进行汇总计算reduce阶段。map阶段主要做的事情有对数据进行切割，在将数据写入内存，此间会有一个缓冲区，默认大小为100M,当达到一定的大小即80%的时候会触发溢写，将数据写入磁盘中，此间会进行一个排序操作。

其中影响map个数的因素有文件的个数、文件的大小、切片的大小（有参数控制）

reduce阶段主要做的事情，map阶段处理的数据从磁盘的中拉取出来，进行一个分组排序后写入磁盘。

期间影响reduce的个数的因素有，用户是否设置，不设置为一。

MapReduce中最重要的一部分就是shuffle，那么那个阶段为shuffle呢，就是在map处理后到reduce处理前的一阶段为shuffle阶段，主要包括数据的溢写排序，分区，拉取，合并排序等步骤，这一阶段也就是后续会讲到的会造成问题的数据倾斜的源头的阶段。

接下来第二个问题，yarn是一个通用资源的管理系统和调度平台。主要有resourcemanager（主角色），nodemanager（从角色），以及ApplicationMaster（程序内部组件）三部分构成。其主要功能是：

ResourceManager 负责整个集群的资源管理和分配，是一个全局的资源管理系统。
是程序申请资源的唯一入口负载调度。
nodemanager 负责每台机器上具体的资源管理负责启动关闭container容器。
ApplicationMaster来管理程序执行情况程序内部的资源申请各阶段执行情况的监督。

️一条大咸鱼

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
初识Hadoop（下）-MapReduce，YARN的初掌握-大数据入门

MapReduce，shuffle，yarn的原理和组件
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。