Hive 内部表与外部表

本文详细介绍了Hive中的内部表和外部表的定义、区别,包括存储位置、数据管理、数据丢失风险、数据导入方式以及备份恢复机制。同时讨论了它们在不同使用场景下的优势和应用。
摘要由CSDN通过智能技术生成

1.Hive 内外部表的定义

内部表(managed table): 未被external修饰的表,也叫管理表。

外部表(external table):被external修饰的表。

2.内部表&外部表的区别:

1. 存储位置:
   - 内部表的数据存储在Hive默认的Warehouse目录中,由Hive管理。
   - 外部表的数据存储在用户指定的位置,Hive仅对表的元数据进行管理,不负责数据的存储管理。

2. 数据管理:
   - 内部表的数据由Hive负责管理,当删除内部表时,数据也会被删除。
   - 外部表的数据由用户自行管理,当删除外部表时,数据不会被删除。

3. 数据丢失:
   - 删除内部表时,数据会被彻底删除,存在数据丢失的风险。
   - 删除外部表时,数据不会被删除,只会删除表的元数据,数据仍然保留在指定的位置,不会丢失。

4. 数据导入:
   - 内部表可以通过加载数据的方式将数据导入到表中。
   - 外部表一般是已经存在数据的表,直接在指定位置读取数据。

5. 数据备份与恢复:
   - 内部表的数据备份和恢复由Hive管理,可以使用Hive提供的备份和恢复功能。
   - 外部表的数据备份和恢复由用户自行管理,可以通过其他方式进行备份和恢复。

3.数据管理方式:

数据(data)都存储在HDFS上,内部表由Hive自身管理。

外部表数据由HDFS管理, 元数据(metadata)都存储在mysql上,由mysql管理。

4.Hive内部表与外部表的演示:

内部表:

外部表

5.内外部表的使用场景

内部表被drop后,表的data和metadata都会被删除;外部表被drop后,表的metadata会被删除,但是data不会被删除。如果不小心删掉外部表,重新建表location到数据存放在HDFS的相应路径即可。

使用场景:

(1)外部表:因其指删除表时不会删除HDFS上的数据,安全性相对较高,且指定目录的特性,适合数据需要共享或者数据的处理需要 hive和其他工具一起处理的场景。

(2)内部表:对原始数据或比较重要的中间数据进行建表存储。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值