hadoop过程中最重要的是MapReduce框架,可是处于集群的考虑,网络带宽的限制,其中还有很多优化。
这是本人画的,希望不要出错....
一个job分块,进行map操作,hadoop使用数据本地优化,所以在集群中的节点机子上进行map操作,数据最好是一个HDFS的块数据大小既64M,闲话不多说了,看图就知道了
hadoop过程中最重要的是MapReduce框架,可是处于集群的考虑,网络带宽的限制,其中还有很多优化。
这是本人画的,希望不要出错....
一个job分块,进行map操作,hadoop使用数据本地优化,所以在集群中的节点机子上进行map操作,数据最好是一个HDFS的块数据大小既64M,闲话不多说了,看图就知道了