
【MapReduce】03.MapReduce框架原理
数据切片:数据切片是MapReduce程序计算输入数据的单位,一个切片会对应一个MapTask(逻辑切分,并非物理切分)MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。数据块:Block是HDFS物理上的数据分割,数据块是HDFS存储数据单位。1)一个Job的Map阶段并行度由客户端在提交Job时的切片数决定。2)每一个Split切片分配一个MapTask并行实例处理。4)切片时不考虑数据集整体,而是逐个针对每个文件单独切片。






