hadoop源码分析：切片的执行规则

最新推荐文章于 2023-06-27 15:43:28 发布

慵懒的程序猿007

最新推荐文章于 2023-06-27 15:43:28 发布

阅读量370

点赞数 2

分类专栏： hadoop源码文章标签：大数据 hadoop mapreduce

本文链接：https://blog.csdn.net/m0_46589706/article/details/106386922

版权

接触Hadoop的小伙伴应该都知道，Split（切片）的数目就是MapReduce运行时将要产生的MapTask数，那么Hadoop是如何进行切片的规则是什么呢？

Hadoop的切片功能是在FileInputFormat中实现的，里边定义了切片相关的属性配置和实现切片的getSplit（）方法。以下是FileInputFormat类中与切片相关的属性及属性的get、set方法。

public abstract class FileInputFormat<K, V> extends InputFormat<K, V> {
    public static final String SPLIT_MAXSIZE =   //切片最大尺寸  
                                "mapreduce.input.fileinputformat.split.maxsize";
    public static final String SPLIT_MINSIZE =   //切片最小尺寸
                                "mapreduce.input.fileinputformat.split.minsize";
    private static final double SPLIT_SLOP = 1.1D;  //进行切片的判定比

    public static void setMinInputSplitSize(Job job, long size) {
                job.getConfiguration().setLong("mapreduce.input.fileinputformat.split.minsize",size);
    }  //设置切片的最小尺寸

最低0.47元/天解锁文章

慵懒的程序猿007

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop源码分析：切片的执行规则

接触Hadoop的小伙伴应该都知道，Split（切片）的数目就是MapReduce运行时将要产生的MapTask数，那么Hadoop是如何进行切片的规则是什么呢？Hadoop的切片功能是在FileInputFormat中实现的，里边定义了切片相关的属性配置和实现切片的getSplit（）方法。以下是FileInputFormat类中与切片相关的属性及属性的get、set方法。public abstract class FileInputFormat<K, V> extends Inpu
复制链接

扫一扫

专栏目录