1、不同的Map任务之间不会进行通信
2、不同的Reduce任务之间也不会发生任何信息交换
3、用户不能显式地从一台机器向另一台机器发送消息
4、所有的数据交换都是通过MapReduce框架自身去实现的
各个执行阶段:
HDFS 以固定大小的block 为基本单位存储数据,
而对于MapReduce 而言,其处理单位是split。
split 是一个逻辑概念,它只包含一些元数据信息,比如数据起始位置、数据长度、数据所在节点等。它的划分方法完全由用户自己决定。
Map任务数:
Ha