2020-09-11

切片机制
核心代码:
maps = writeNewSplits(job, jobSubmitDir); //向资源提交路径提交job的切片信息
List splits = input.getSplits(job); //FileInputFormat类中的getSplits()方法
long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job)); //minSize==1
long maxSize = getMaxSplitSize(job); //long的最大值

 List<InputSplit> splits = new ArrayList<InputSplit>();  //存放split的集合
 List<FileStatus> files = listStatus(job);		//获得job输入路径的所有文件
 long blockSize = file.getBlockSize();    //获得块尺寸
 long splitSize = computeSplitSize(blockSize, minSize, maxSize);  //计算切片大小
 		return Math.max(minSize, Math.min(maxSize, blockSize));  //通过minSize和maxSize调整splitSize相对于blockSize的大小
 		while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {   //SPLIT_SLOP为1.1,当剩余字节/切片大小>1.1开始切片,每次记录切片的偏移量,若最后小于1.1,则剩余部分为一块切片
            int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
            splits.add(makeSplit(path, length-bytesRemaining, splitSize,
                        blkLocations[blkIndex].getHosts(),
                        blkLocations[blkIndex].getCachedHosts()));
            bytesRemaining -= splitSize;
          }

if (bytesRemaining != 0) {
int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
splits.add(makeSplit(path, length-bytesRemaining, bytesRemaining,
blkLocations[blkIndex].getHosts(),
blkLocations[blkIndex].getCachedHosts()));
}``

InPutFormat是一个抽象类定义了
getSplits()方法和recordRedear方法,分别由FileInputFormat和TextInputFormat实现,后者是前者的子类,return linerecordRedear 即逐行读取数据。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值