初识Hadoop(下)-MapReduce,YARN的初掌握-大数据入门

        先来看2个问题:1.什么是MapReduce,以及原理?2.yarn的组件和功能有什么?

        首先来说第一个问题,MapReduce是Hadoop三大马车中的一架,即计算框架,先将数据进行局部计算即map阶段,在将数据进行汇总计算reduce阶段。map阶段主要做的事情有对数据进行切割,在将数据写入内存,此间会有一个缓冲区,默认大小为100M,当达到一定的大小即80%的时候会触发溢写,将数据写入磁盘中,此间会进行一个排序操作。

  1. 其中影响map个数的因素有文件的个数、文件的大小、切片的大小(有参数控制)

        reduce阶段主要做的事情,map阶段处理的数据从磁盘的中拉取出来,进行一个分组排序后写入磁盘。

  1. 期间影响reduce的个数的因素有,用户是否设置,不设置为一。

        MapReduce中最重要的一部分就是shuffle,那么那个阶段为shuffle呢,就是在map处理后到reduce处理前的一阶段为shuffle阶段,主要包括数据的溢写排序,分区,拉取,合并排序等步骤,这一阶段也就是后续会讲到的会造成问题的数据倾斜的源头的阶段。

        接下来第二个问题,yarn是一个通用资源的管理系统和调度平台。主要有resourcemanager(主角色),nodemanager(从角色),以及ApplicationMaster(程序内部组件)三部分构成。其主要功能是:

  1. ResourceManager 负责整个集群的资源管理和分配,是一个全局的资源管理系统。
    是程序申请资源的唯一入口 负载调度。
  2. nodemanager 负责每台机器上具体的资源管理 负责启动 关闭container容器。
  3. ApplicationMaster来管理程序执行情况  程序内部的资源申请 各阶段执行情况的监督。
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值