hive sql性能优化
1.join(1)建中间表(大表重复使用,逻辑重复使用,关联多逻辑复杂)(2)建子查询(减少数据量,减少大表关联)2.on(1)null值处理(2)关联字段唯一(3)数据倾斜过滤倾斜key(关于驱动表的取,用join key分布最均匀的表作为驱动表做好列裁剪和filter操作,以达到两表做join的时候,数据量相对变小的效果)BroadCastJoin(即map join)(使用map join让小的维度表(1000条以下的记录条数) 先进内存。在map端完成reduce)分层汇总拆






