1 查询的时候不要写*,不要生成笛卡尔积
2 hive中的文件格式尽量用列式存储,如 ORC parquet
3使用分区表,可设置二级分区
4使用分桶表
5合理设置reduce个数
6 不要使用压缩文件
7测试代码逻辑,本地运行模式,set mapreduce.framework.name=local
8join:map端的join,小表join大表
9不要用Count(Distinct)函数
10 关闭严格模式
11 SQL优化
1 查询的时候不要写*,不要生成笛卡尔积
2 hive中的文件格式尽量用列式存储,如 ORC parquet
3使用分区表,可设置二级分区
4使用分桶表
5合理设置reduce个数
6 不要使用压缩文件
7测试代码逻辑,本地运行模式,set mapreduce.framework.name=local
8join:map端的join,小表join大表
9不要用Count(Distinct)函数
10 关闭严格模式
11 SQL优化