Hadoop MR中的 InputFormat and InputSplit
前言:在MapReduce中Map的数量与InputSplit数量相等,想要改变一个job的Map任务数要从InputSplit的数目和大小出发,而InputSplit是由InputFormat生成的,两者的关系如下图:InputSplitInputSplit包含一个以字节为单位的长度和一组存储位置(一组主机名)。一个InputSplit由一个Map任务来处理。InputSplit并不包含数据本身,而是指向数据的引用。InputSplit是由记录(record,key-value pair)




