Hive 数据仓库,对经常查询的大数据表建立分区就是对Hive SQL查询的一种优化,一般常用日期做分区,因为日期一直以来业务比较关注的统计维度,比如年度报告,月度报告,甚至季度报告等等。
个人建议:使用年月日分区,作三分区,在建表语句之后使用 partitioned by (pt_year int, pt_month int, pt_date int) 增加分区后,在查询时加入分区条件可以提高查询到速度和降低内存消耗。
Hive 数据仓库,对经常查询的大数据表建立分区就是对Hive SQL查询的一种优化,一般常用日期做分区,因为日期一直以来业务比较关注的统计维度,比如年度报告,月度报告,甚至季度报告等等。
个人建议:使用年月日分区,作三分区,在建表语句之后使用 partitioned by (pt_year int, pt_month int, pt_date int) 增加分区后,在查询时加入分区条件可以提高查询到速度和降低内存消耗。