1. 设置map与reduce 执行过程
配置 mapreduce.job.reduce.slowstart.completedmaps 参数
该参数默认为 0.05, 表示map执行 5%之后,开始reduce过程。如果集群资源不够,有可能导致reduce把资源全抢光,可以把这个参数调整到0.8,map完成80%后才开始reduce copy 过程。
可以配置为如下:
set mapreduce.job.reduce.slowstart.completedmaps=0.8; -- map 执行了 80%后再执行reduce
set mapreduce.job.reduce.slowstart.completedmaps=0.9;
2.设置数据压缩
配置中间数据压缩属性 hive.exec.compress.intermediate ,该参数默认为false-不压缩。可设置为 true-压缩。
配置输出结果压缩功能 hive.exec.compress.output ÿ