一、建表
- 内部表的创建
CREATE EXTERNAL TABLE test.test_maneged_table(
id int,
name string
)
PARTITIONED by (dt STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001'
LOCATION '/user/test/test_localtion_load';--location路径 需提前建好
2.外部表的创建
CREATE TABLE test.test_maneged_table(
id int,
name string
)
PARTITIONED by (dt STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001';
区别:
1. 外部表需要external关键之,location是数据文件默认存放位置,不管是不管是select 还是load的数据都存放在这里。导入数据到外部表,数据并没有mv到数据仓库目录,而是在loacation目录。
2.内部表建表时也能加上location,作用和外部表一样,都是表数据的存放路径,不同的是drop table时内部表会将hdfs上的数据也删掉,外部表仅仅是删除表的元数据,原始数据不会删除。
优点:
1.安全,外部表不用担心表删除带来的风险。
2.灵活,方便数据共享,使用更加灵活。
二、修改分区表增加分区
alter table test.test_maneged_table add partition(dt=20170101) location '/user/test/test_localtion_load/20170101'
会自动在/user/test/test_localtion_load/目录下创建20170101目录,test_maneged_table表dt=20170101分区的数据默认放到文件系统的/user/test/test_localtion_load/20170101
1./user/test/test_localtion_load下面没有任何目录
hadoop fs -ls /user/test/test_localtion_load
2.增加分区
hive> alter table test.test_localtion_load add if not exists partition (dt='20170101') location '/user/test/test_localtion_load/20170101';
OK
Time taken: 0.173 seconds
3.再次查看/user/test/test_localtion_load目录,创建了20170101目录
hadoop fs -ls /user/test/test_localtion_load
drwxr-xr-x - rd supergroup 0 2017-07-18 11:18 /user/test/test_localtion_load/20170101
三、外部表加载数据
1.通过select加载数据
hive> insert overwrite table test.test_localtion_load partition (dt='20170101') select 1,2;
hive> select * from test.test_localtion_load where dt=20170101;
OK
1 2 20170101
Time taken: 0.376 seconds, Fetched: 1 row(s)
2.通过put数据到hdfs加载数据
hive> alter table test.test_localtion_load add partition (dt='20170102') location '/user/test/test_localtion_load/20170102';
OK
Time taken: 0.213 seconds
hadoop fs -cp /user/test/test_localtion_load/20170101/* /user/test/test_localtion_load/20170102/
hive> select * from test.test_localtion_load where dt=20170102;
OK
1 2 20170102
Time taken: 0.395 seconds, Fetched: 1 row(s)