1.为了实现横向扩展,我们需要把数据存储在分布式文件系统中,通过使用Hadoop资源管理系统YARN,Hadoop可以将MapReduce计算转移到存储有不分数据的各台机器上。
2.map任务将其输出写入本地磁盘,而非HDFS。**
只是因为map的输出是中间结果:该中间结果由reduce任务处理完后才产生最终输出结果,而且一旦作业完成,map的输出结果就可以删除。因此,如果运行map任务的节点在将map中间结果传给reduce任务之前失败,Hadoop将在另一个节点上重新运行这个map任务以再次构建map中间结果。
3.reduce的输出通常存储在HDFS中以实现可靠存储。