Hadoop源码一起看——FileInputFormat文件切割策略

最新推荐文章于 2021-06-05 09:25:12 发布

蔡师傅冰红茶

最新推荐文章于 2021-06-05 09:25:12 发布

阅读量378

点赞数

本文链接：https://blog.csdn.net/qq_37354905/article/details/86291226

版权

在hadoop提交任务过程中，最重要的部分是对文件的切割。因为切片的信息提交yarn之后，MrAppMaster根据切片数量决定开启maptask数量。文件的切割策略在FileInputFormat类的getSplits方法中。

public List<InputSplit> getSplits(JobContext job) throws IOException {
StopWatch sw = new StopWatch().start();
long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));
long maxSize = getMaxSplitSize(job);

// generate splits
List<InputSplit> splits = new ArrayList<InputSplit>();
List<FileStatus> files = listStatus(job);
for (FileStatus file: files) {
Path path = file.getPath();
long length = file.getLen();
if (length != 0) {
BlockLocation[] blkLocations;
if (file instanceof LocatedFileStatus) {
blkLocations = ((LocatedFileStatus) file).getBlockLocations();
} else {
FileSystem fs = path.getFileSystem(job.getConfiguration());
blkLocations = fs.getFileBlockLocations(file, 0, length);
}
if (isSplitable(job, path)) {
long blockSize = file.getBlockSize();
long splitSize = computeSplitSize(blockSize, minSize, maxSize);

long bytesRemaining = length;
while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
splits.add(makeSplit(path, length-bytesRemaining, splitSize,
blkLocations[blkIndex].getHosts()

最低0.47元/天解锁文章

蔡师傅冰红茶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop源码一起看——FileInputFormat文件切割策略

在hadoop提交任务过程中，最重要的部分是对文件的切割。因为切片的信息提交yarn之后，MrAppMaster根据切片数量决定开启maptask数量。文件的切割策略在FileInputFormat类的getSplits方法中。 public List&lt;InputSplit&gt; getSplits(JobContext job) throws IOException { ...
复制链接

扫一扫