job的文件split计算法则

最新推荐文章于 2023-05-24 17:28:33 发布

橙鸭尾

最新推荐文章于 2023-05-24 17:28:33 发布

阅读量639

点赞数 1

分类专栏： Hadoop

本文链接：https://blog.csdn.net/vaychen/article/details/87001887

版权

Hadoop 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

计算切片数量和大小(注意视频中的是hadoop 2.7.3，每个版本的方法都有变动，以实际为准)

List<InputSplit> splits = input.getSplits(job);

切片数量选择过程

最小值(肯定>=1)：long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));

返回的是1

最大值(肯定<= Long.Max ,另外也要根据参数mapreduce.input.fileinputformat.split.maxsize=)：

long maxSize = getMaxSplitSize(job);

根据参数

getMinSplitSize(job):这个值的参数是mapreduce.input.fileinputformat.split.minsize，然后在下面的配置文件中找到,是0。

C:\Users\yawei.chen\Desktop\Puck\Hadoop\安装包\hadoop-2.7.6\share\doc\hadoop-project\hadoop-mapreduce-client\hadoop-mapreduce-client-core\mapred-default.xml

能否切片条件判断

*压缩文件不能切片。下面的函数用于判断文件是否为压缩，如果不是则返回true，可以切。

根据block大小，去判断切片大小

计算法则

块大小	long blockSize = file.getBlockSize();
切片大小	long splitSize = this.computeSplitSize(goalSize, minSize, blockSize);	相当于在minSplit maxSplit blockSize中间取一个中间值