目录
3.FileInputFormat切片源码分析(input.getSplits(job))
一、InputFormat数据输入
1.InputFormat
(1)切片与MapTask并行度决定机制
一个job的Map阶段,一个大的文件会交给多个MapTask来并行处理,但是MapTask设置多少个才算合理呢?
- 数据块:Block是HDFS物理上把数据分成一块一块。数据块是HDFS存储数据单位。
- 数据切片:数据切片只是在逻辑上对输入的文件进行分片
数据切片是MapReduce程序计算输入数据的单元ÿ