1、问题:在这张图中有几个工人,几个工厂
工人: 4 --map处理程序
厂: 3 --reduce相当于最后的工厂 组装
2、map端进行了什么事:砍树这一步叫做split 过程
砍树—把我们hdfs的文件进行切割(砍树) ----- 默认与block块的大小一
致(128M) split=block=maptask
2.1当然为了更好的处理,在计算资源充足的情况下,把split变大设置为256M
split= 2block= maptask
2、计算资源不充足,假设一个maptask只能处理64M的数据,那该怎么办呢?
有一个词叫做并行计算,并且中国传统文化也支持有福同享,有难同当,对吧
那我们就把split设置为64M
2split= 1 block= 2maptask
那在这里也证明了一个点
-一个计算处理进程(maptask)处理一个split
1split= 1maptask