离线计算框架MapReduce 原理 :将计算过程分为两个阶段,Map和Reduce。Map 阶段并行处理输入数据,Reduce阶段对Map结果进行汇总。Shuffle连接Map和Reduce两个阶段。MapTask将数据写到本地磁盘,Reduce Task从每个MapTask上读取一份数据。 优点 :仅适合离线批处理;具有很好的容错性和扩展性;适合简单的批处理任务 缺点 :启动开销大、过多使用磁盘导致效率低下等。