1.Hive 内外部表的定义
内部表(managed table): 未被external修饰的表,也叫管理表。
外部表(external table):被external修饰的表。
2.内部表&外部表的区别:
1. 存储位置:
- 内部表的数据存储在Hive默认的Warehouse目录中,由Hive管理。
- 外部表的数据存储在用户指定的位置,Hive仅对表的元数据进行管理,不负责数据的存储管理。
2. 数据管理:
- 内部表的数据由Hive负责管理,当删除内部表时,数据也会被删除。
- 外部表的数据由用户自行管理,当删除外部表时,数据不会被删除。
3. 数据丢失:
- 删除内部表时,数据会被彻底删除,存在数据丢失的风险。
- 删除外部表时,数据不会被删除,只会删除表的元数据,数据仍然保留在指定的位置,不会丢失。
4. 数据导入:
- 内部表可以通过加载数据的方式将数据导入到表中。
- 外部表一般是已经存在数据的表,直接在指定位置读取数据。
5. 数据备份与恢复:
- 内部表的数据备份和恢复由Hive管理,可以使用Hive提供的备份和恢复功能。
- 外部表的数据备份和恢复由用户自行管理,可以通过其他方式进行备份和恢复。
3.数据管理方式:
数据(data)都存储在HDFS上,内部表由Hive自身管理。
外部表数据由HDFS管理, 元数据(metadata)都存储在mysql上,由mysql管理。
4.Hive内部表与外部表的演示:
内部表:
外部表
5.内外部表的使用场景
内部表被drop后,表的data和metadata都会被删除;外部表被drop后,表的metadata会被删除,但是data不会被删除。如果不小心删掉外部表,重新建表location到数据存放在HDFS的相应路径即可。
使用场景:
(1)外部表:因其指删除表时不会删除HDFS上的数据,安全性相对较高,且指定目录的特性,适合数据需要共享或者数据的处理需要 hive和其他工具一起处理的场景。
(2)内部表:对原始数据或比较重要的中间数据进行建表存储。