
Hive调优
但是order by会导致出现一个reducer的情况,所以可以先使用 distribute by ... sort By ...limit 先进行分区内部取前N名 最后套一层再用 order by,那么这个reducer 处理的数据量就小了很多。7.做hive 的join时,在业务允许的情况下,一定要提前去重,否则会出现数据膨胀的情况(笛卡尔积)2.slowStart参数,这个参数就是设置map任务完成多少后,才启动reduce的参数。2.有分区表的时候,一定是先过滤分区数据,本质就是分区裁剪。



