map数目确定方法
Map数目的划分是由输入文件大小,个数等因素决定的,另外不同的文件输入格式切分map数目的方法也是不一样的,我们来看下Hive使用的两种输入格式的Map数目确定方法。
HiveInputFormat
MapTask的数目主要有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改),控制这些变量的参数如下:
set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;
# 文件分割最大大小
set mapreduce.input.fileinputformat.split.maxsize=536870912; // goalSize
# 文件分割最小值
set mapreduce.input.fileinputformat.split.minsize=236870912