分布式离线计算框架—MapReduce和Yarn

MapReduce运行在yarn

1、核心思想:分而治之

2、现实案例并行计算流程

  • 1)分割
  • 2)分割文件(数据文件、程序包)分发到每台机器上
  • 3)每台机器数据计算
  • 4)获取每台机器计算结果
  • 5)合并每台机器计算结果
  • 6)生成数据分析结果文件

3、将计算过程分为两个阶段map和reduce

  • map阶段并行处理输入的数据
  • reduce阶段对map结果进行汇总
  • shuffle连接map和reduce两个阶段
  • map的输出——》reduce的输入
  • map shuffle
  • reduce shuffle

4、仅适合离线批处理

  • 具有很好的容错性和扩展性
  • 适合简单的批处理任务

5、缺点明显

启动开销大,过多使用磁盘导致率下等

input——》map——》shuffle——》reduce——》output

集群资源管理与任务调度的分布式框架——yarn

1、分布式框架

主从架构,也就是主节点和从节点

2、yarn的功能

集群资源的管理

  • 主节点:——RM(resourcemanager)
  • 从节点:——ND(nodemanager)

任务调度

  1. yarn上运行多个应用程序
  2. 应用程序运行需要资源
  3. 对应用程序的资源如行进行分配
  4. yarn如何任务调度

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值