mapred.max.split.size=256000000; // 决定每个map处理的最大的文件大小,单位为B
mapred.min.split.size.per.node=1; // 节点中可以处理的最小的文件大小
mapred.min.split.size.per.rack=1; // 机架中可以处理的最小的文件大小
mapred.reduce.tasks=10; -- 设置reduce的数量
hive.exec.reducers.bytes.per.reducer=1073741824 // 每个reduce处理的数据量,默认1GB
hive.merge.mapredfiles=false //reduce输出是否合并
hive.merge.mapfiles=true //map输出是否合并
hive.merge.smallfiles.avgsize=16000000 // 小文件大小
hive.mapred.mode=nonstrict //分为nonstrict,strict,默认是nonstrict;如果设置为strict,会对三种情况的语句在compile环节做过滤:笛卡尔积、order by 不加 limit、分区表不指定 partition predicate
hive.map.aggr=true // map端聚合,相当于combiner
hive.map.aggr.hash.force.flush.memory.threshold=0.9
hive.map.aggr.hash.min.reduction=0.5
hive.map.aggr.hash.percentmemory=0.5
hive.exec.reducers.max=200;
hive.groupby.mapaggr.checkinterval=100000 ; //group的键对应的记录条数