Hive中分区表与分桶表
参考:https://blog.csdn.net/Li_Jian_Hui_/article/details/112280985
区别:
(一)从表现形式上:
分区表是一个目录;分桶表是文件
(二)从创建语句上:
分区表使用partitioned by(partition_name string),指定字段为伪劣(非表内字段),需要指定字段类型
分桶表使用clustered by(column_name) into 3 buckets,指定字段是真实字段(表内字段),不需要指定字段类型,但需要指定桶的个数
(三)从数量上:
分区表的分区个数可以增长;分桶表一旦指定不能再增长
(四)从作用上:
分区表避免全表扫描,根据指定分区列查询指定目录提高查询速度
分桶表保存分桶查询结果(数据已经按照分桶字段进行hash散列),分桶表数据进行抽样和Join时可以提高MR程序的效率
分区表就是一种逻辑上的划分,分区字段使用的是表外字段并不保存数据,只是HDFS中一个文件存储目录。在插入数据时指定分区,若该分区原先不存在就是根据分区字段新建一个目录,在该目录下存放数据;若该分区原先存在,则是在原分区目录下添加一份数据。