一 .Sql 优化:
1. 根据不同的业务场景进行sql优化
2. 去除查询过程中不需要的 column
3. Where 条件判断再 tablescan 阶段就进行过滤
4. 利用partition信息 获取有效的数据信息
5. Map端的jion 以大表做驱动 小表加入内存当中
6. 调整jion的顺序 进来使 大表作为驱动表。
7. 对数据分布不均匀的表进行group by 时, 为了避免 数据集中到 reduce 可以分成两个阶段来执行 第一阶段利用distionct 第二阶段 再进行group by 。
二.平台方面的优化
hive on tez
Hive spark
通过使用其他的计算引擎框架
三 .整体架构方面的优化
现阶段 hive的整体架构 不紧可以支持 MapReduces 并且支持 Tez ,Spark 等计算引擎。