Hive的表在HDFS里面体现都是文件
1、内部表
内部表示Hive中默认的表类型,表数据默认存储在warehouse目录下,即使我们使用load data的方式,
Hive也会在数据拷贝在warehouse目录下,当我们创建内部表时,Hive会在warehouse下创建表名的目录存储数据文件,
同时会在metastore维护元数据信息,当我们删除表的时候,表的数据会删除,同时metastore中的元数据信息也会同时删除。
2、外部表
外部表在加载数据的时候,实际数据并不会移动到warehouse中,只是与外部数据建议了一个映射关系,表的定义和数据生命周期互相不约束,
数据只是表对HDFS上的某一个目录的引用而已。当删除定义的时候,数据依然存在,仅删除元数据信息(表和数据之间的引用关系),
这种表有个好处就是,即使我们误删除了表,但数据依然存在。
3、分区表
分区表的目的是为了优化查询效率的,当全表数据量过大的时候,就可以考虑设计成分区表,分区表在HDFS上的体现相当于在表级目录下
创建了一层分区目录,在分区目录下才是真正的数据文件,一个分区,一个分区目录。常用的分区设计一般是日分区设计。通过自然日划分表数据存储。
使用分区表的时候一般都需要限制分区,否则一样会全表扫描。除了一级分区设计,还有常用的会设计成二级分区。如下图和SQL演示