离线计算框架 MapReduce
思想:分而治之(将大数据集分为小的数据集)
- 将计算过程分为两个阶段,Map和Reduce
- Map阶段并行处理输入数据
- Reduce阶段对Map结果进行汇总
- Shuffle连接Map和Reduce两个阶段
- Map Task将数据写到本地磁盘
- Reduce Task从每个Map Task上读取一份数据
- 仅适合离线批处理
- 具有很好的容错性和扩展性
- 适合简单的批处理任务
- 缺点明显
启动开销大、过多使用磁盘导致效率低下等
思想:分而治之(将大数据集分为小的数据集)
转载于:https://www.cnblogs.com/Zlcode/p/8404154.html