Hadoop MR中的 InputFormat and InputSplit
前言:
在MapReduce中Map的数量与InputSplit数量相等,想要改变一个job的Map任务数要从InputSplit的数目和大小出发,而InputSplit是由InputFormat生成的,两者的关系如下图:
InputSplit
InputSplit包含一个以字节为单位的长度和一组存储位置(一组主机名)。
一个InputSplit由一个Map任务来处理。
InputSplit并不包含数据本身,而是指向数据的引用。
InputSplit是由记录(record,key-value pair)
原创
2021-01-06 11:35:45 ·
193 阅读 ·
0 评论