-
split是逻辑分片,再mapTask任务开始前,将文件按照指定的大小进行逻辑切分。每一个部分称之为一个split。默认情况下,split的大小与block的大小相等。均为128M.
-
可以参考FileInputForamt类的getSplits()源码
-
会先获取三个参数的值,minSize,maxSize,blockSize
-
然后创建一个分片集合用于存储分片数据
-
获取文件的所有块信息,进行遍历
-
得到一个块的状态信息,然后判断是否可以切分
-
然后根据三个参数获取分片大小
-
循环判断文件剩余部分是否大于切片大小的1.1倍,
-
大于的话就调用makeSplit方法创建当前块的逻辑分片
-
不大于的话,就将文件剩余的部分创建一个唯一的最后一个分片。
-
-
将每一个逻辑分片添加到分片集合中,等待被使用
-
-
分片的大小由minSize,maxSize,blockSize三个参数决定
算法如下:
Math.max(minSize,Math.min(maxSize, blockSize)),其中maxSize是取得longValueMax的值
1.如果blockSize小于maxSize && blockSize 大于 minSize之间,那么split就是blockSize;
2.如果blockSize小于maxSize && blockSize 小于 minSize之间,那么split就是minSize;
3.如果blockSize大于maxSize && maxSize 大于 minSize之间,那么split就是maxSize;
4.如果blockSize大于maxSize && maxSize 小于 minSize之间,那么split就是maxSize(不存在这种关系)。