任务任务优化
1分区表,扫描指定的文件数,减少处理的文件
2.对map/reduce的输出进行压缩,map和reduce,压缩可以减少IO和网络传输的时间
set mapred.compress.map.output=true
3. 桶
4.并行化操作
参数 SET hive.exce.parallel=true;.原理如下图
hive.exec.parallel.thread.number
并行执行任务个数,默认为8
5.Vectorization
处理数据每次处理一批数据,而不是一行行处理
set hive.vectorized.execution.enabled = true;
set hive.vectorized.execution.reduce.enabled = true;
6.增大reduce个数
set hive.exec.reducers.max=200;
<