1. 并行执行
set hive.exec.parallel.thread.number = 8 (一般在10到20之间)
set hive.exec.parallel = false
2. JVM 重用
Map Task / Reduce Task 是在JVM中运行的。
JVM启动需要时间。
mapreduce.job.jvm.numtasks = 2 数值不要太大
3. Reduce数目
MapReduce.job.reduces = 1
4. 推测文件 (把下面的三个全部设置为false 就是优化)
mapreduce.map.speculative = true
hive.mapred.reduce.tasks.speculative.execution = true
mapreduce.reduce.speculative = true;
5. Map数目
hive.merge.size.per.task= 256000000