1.从表现形是来看:分区是一个目录,分桶是一个文件
2.从建表语句来看:
分区表使用partitioned by 子句指定,以指定字段为伪列,需要指定字段类型,分桶表由clustered by 子句指定,指定字段为真实字段,需要指定桶的个数
3.从数量上来看:
分区表分区个数可以增长,分桶表一但指定数量就不能增长了
4.从作用上来看:
分区避免全表扫描,根据分区列查询指定目录提高查询速度, 分桶保存分桶查询结果的分桶结构(数据已经按照分桶字段进行了hash散列)。分桶表数据进行抽样和JOIN时可以提高MR程序效率