1.两者的区别
(1)分区表和分桶表都是细化数据管理,但是分区表是手动添加区分,由于hive是只读模式,所以对添加进分区的数据不做模式效验。分桶表的数据是按照某些分桶字段进行hash散列 相乘的多个文件,所以数据的准确性高很多
(2)分区表是指按照数据表的某列或者某些列分为多个区,区从形式上可以理解为文件夹
(3)分桶是相对分区进行更细粒度的划分。分桶将整个数据内容按照某列属性值的hash值进行区分,如果按照name属性分为3个桶,就是对name属性值的hash属性值对3取模,按照取模结果对数据分桶。如取模结果为0的数据记录存放到一个文件,取模为1的数据存放到一个文件,取模为2的2数据存放到一个文件
2.归纳总结两者的区别
(1)从表现形式上:
分区表是一个目录,分桶表是文件
(2)从创建语句上:
分区表使用partitioned by子句指定,以指定字段为例,需要指定字段类型
分桶表由clustered by子句指定,指定字段为真实字段,需要指定桶的个数
(3)从数量上:
分区表的分区个数可以增长,分桶表一旦指定,不能在增长
(4)从作用上:
分区避免全表扫描,根据分区列查询指定目录提高查询速度
分桶保存分桶查询的分桶结构(数据已经按照分桶字段进行了hash散列)
分桶表数据进行抽样和join时可以提高mr程序效率