Hive中的表
管理表与外部表
管理表
当你在Hive中创建表时,默认创建的是管理表,意味着Hive将数据移入仓库目录。恰恰相反,外部表不会将数据移入仓库目录,但会持有对仓库之外数据的引用。
两者的区别可以通过LOAD和DROP命令中看得见,首先我们考虑控制表:
当你LOAD数据进入管理表时,他将进入Hive的仓库中:
create table managed_table (dummy string);
load data inpath '/tmp/first.txt' into table managed_table;
将数据从/tmp目录移到了/user/hive/warehouse/managed_table目录。
执行drop table managed_table;
元数据和数据在任何地方都不存在了。
外部表
外部表的行为就不一样了,你可以控制数据的创建与删除。外部表在创建的时候要指定外部数据的位置:
CREATE EXTERNALTABLE external_table (dummy STRING) LOCATION '/user/tom/external_table';
LOAD DATA INPATH '/user/tom/data.txt' INTO TABLE external_table;
在这个过程中,Hive不会将数据移入数据仓库,但是数据还是产生了移动,将移入LOCATION中。
DROP TABLE external_table
LOCATION中的数据将不会被删除,元数据被删除。
选择原则
如果只有Hive使用这些数据,推荐采用管理表。如果与其他工具共享使用,则使用外部表。一种普遍的使用模式是使用外部表访问存储在HDFS中的初始数据集,