mapreduce 参数:
return Math.max(minSize, Math.min(maxSize, blockSize));
mapreduce.input.fileinputformat.split.minsize (default 0)
mapred.min.split.size
The minimum size chunk that map input should be split into. Note that some file formats may have minimum split sizes that take priority over this setting.
mapreduce.input.fileinputformat.split.maxsize
mapred.max.split.size(旧版)
启动map最大的split size大小
每个split的最大值,如果设置了mapreduce.input.fileinputformat.split.maxsize,则为该值,否则为Long的最大值。(如果不设置,合并小文件时,所有小文件会合并成一个文件)
mapreduce.input.fileinputformat.split.minsize.per.node
mapred.min.split.size.per.node(旧版)
mapreduce.input.fileinputformat.split.minsize.per.rack
mapred.min.split.size.per.rack(旧版)
划分split
划分的逻辑如下:
1) 遍历输入目录中的每个文件,拿到该文件
2)

本文详细介绍了Hive中与MapReduce任务相关的参数,如mapreduce.input.fileinputformat.split.minsize和mapreduce.input.fileinputformat.split.maxsize,以及如何划分split。此外,还讲解了Hive合并小文件的参数,如hive.merge.mapFiles和hive.merge.size.per.task,以优化性能。
最低0.47元/天 解锁文章
1172

被折叠的 条评论
为什么被折叠?



