内外部表区别
1.内部表由hive自己管理数据(所以hive删表会删元数据和主数据),(主)数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse),但也可以自己指定路径;
外部表数据由HDFS管理(所以hive删表会删元数据,但不会删主数据),(主)数据存储位置由自己建表时指定(如果没有LOCATION,Hive将在HDFS上的/user/hive/warehouse文件夹下以外部表的数据库名/表名创建一个文件夹,并将属于这个表的数据存放在这里)。
2.使用技巧 因为内外部表均可以自己指定路径,所以可以通过将内部表指定为外部表的路径来删除外部表的主数据。 外部表本身不能truncate和drop掉主数据。
hive元数据存储位置
Hive将元数据存储在关系型数据库中(如MySQL、derby),Hive的元数据包括数据库名、表名及类型、字段名称及数据类型、数据所存储的位置等。
使用场景
内部表作为ETL临时表使用,外部表作为生产业务表。
1.内部表 (managed table)
use test;
create table t1(
id int
,name string
,hobby array<string>
,add map<String,string>
)
row format delimited
fields terminated by ','
collection items terminated by '-'
map keys terminated by ':'
;
hdfs path: hdfs://namenode:9000/user/hive/warehouse/test.db/t1
1,xiaoming,book-TV-code,beijing:chaoyang-shagnhai:pudong
2,lilei,book-code,nanjing:jiangning-taiwan:taibei
3,lihua,music-book,heilongjiang:haerbin
load data local inpath '/home/hadoop/Desktop/data' overwrite into table t1;
select * from t1;
2. 外部表(external table)
use test;
create external table t2(
id int
,name string
,hobby array<string>
,add map<String,string>
)
row format delimited
fields terminated by ','
collection items terminated by '-'
map keys terminated by ':'
location '/user/t2'
;
hdfs path: hdfs://namenode:9000/user/t2
load data local inpath '/home/hadoop/Desktop/data' overwrite into table t2;
desc formatted t1;
desc formatted t2;