在脚本中hive-e后面直接设置:
--任务优先级别
set mapred.job.priority = NORMAL;
--开启中间压缩(map输出结果压缩,map端溢写时压缩后再传输)
set hive.exec.compress.intermediate = true--设置map端压缩参数:决定压缩的两种:1. set hive的compress.output参数;2.表参数只适用于表存储格式为orc与parquet格式,tblproperties("orc.compress"=snappy")
set =true
set mapreduce.output.fileouputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec
--设置reduce端压缩
set =true
set mapreduce.output.fileouputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec
--在Map-Reduce的任务结束时合并小文件(从map到reduce
set hive.merge.mapredfiles = true;
--合并文件的大小,设置为块大小的两倍256M
set hive.merge.size.per.task = 256000000;<
--当输出文件的平均大小小于该值时,启动一个独立的map-reduce任务进行文件merge
set hive.merge.smallfiles.avgsize=128000000;