MapReduce运行在yarn
1、核心思想:分而治之
2、现实案例并行计算流程
- 1)分割
- 2)分割文件(数据文件、程序包)分发到每台机器上
- 3)每台机器数据计算
- 4)获取每台机器计算结果
- 5)合并每台机器计算结果
- 6)生成数据分析结果文件
3、将计算过程分为两个阶段map和reduce
- map阶段并行处理输入的数据
- reduce阶段对map结果进行汇总
- shuffle连接map和reduce两个阶段
- map的输出——》reduce的输入
- map shuffle
- reduce shuffle
4、仅适合离线批处理
- 具有很好的容错性和扩展性
- 适合简单的批处理任务
5、缺点明显
启动开销大,过多使用磁盘导致率下等
input——》map——》shuffle——》reduce——》output
集群资源管理与任务调度的分布式框架——yarn
1、分布式框架
主从架构,也就是主节点和从节点
2、yarn的功能
集群资源的管理
- 主节点:——RM(resourcemanager)
- 从节点:——ND(nodemanager)
任务调度
- yarn上运行多个应用程序
- 应用程序运行需要资源
- 对应用程序的资源如行进行分配
- yarn如何任务调度