MapReduce核心思想
第一章 Map1.1 InputFormat数据输入1.2 map阶段一个job的map阶段并行度由客户端在提交job的时候的切片决定每个split切片分配一个maptask,每个maptask是并行运行每个切片数的大小由块大小决定:split.size = block.size切片时不考虑数据集的整体,而是针对每个文件进行切片每个maptask运行在哪个节点是根据节点上的资源来决定的具体maptask运算过程按行处理,读数据按空格切分行内单词形成kv键值对<单词, 1&g





