每个切片对应一个maptask,由fileinputformat的getsplits()方法完成
首先 获得hdfs待处理文件的路径,setinputpath,
遍历路径下的文件,获取文件的大小,
与默认block大小128M相比较
超过默认值,则切下128M,即满128M切为一块,到最后不满128M自己为一块,
大体将切片规划写入一个文件,然后传给yarn,启动mrappmaster执行
每个切片对应一个maptask,由fileinputformat的getsplits()方法完成
首先 获得hdfs待处理文件的路径,setinputpath,
遍历路径下的文件,获取文件的大小,
与默认block大小128M相比较
超过默认值,则切下128M,即满128M切为一块,到最后不满128M自己为一块,
大体将切片规划写入一个文件,然后传给yarn,启动mrappmaster执行