hive表的数据源有四种:
hbase
hdfs
本地
其他hive表
而hive表本身有两种:
内部表和外部表。
而hbase的数据在hive中,可以建立对应的外部表(参看hive和hbase整合)
内部表和外部表
区别:删除时,内部表删除hadoop上的数据;而外部表不删,其数据在外部存储,hive表只是查看数据的形式,看时从外部读入数据:
内部表:CREATETABLE tab(column1 STRING, column2 STRING);
外部表:用EXTERNAL 关键字,且必须在表结尾指定如下参数
CREATE EXTERNAL TABLE tab
(column1 STRING,
column2 STRING
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY'\t'
stored as textfile
location 'hdfs://namenode/tmp/lmj/tab/';
分隔符的指定
有两种方式
(1)DELIMITED方式:
ROW FORMAT DELIMITED
[FIELDS TERMINATED BY char]
[COLLECTION ITEMS TERMINATED BY char]
[MAP KEYS TERMINATED BY char]
[LINES TERMINATED BY char]
(2)SERDE方式:
SERDE serde_name [WITH SERDEPROPERTIES(property_name=property_value, property_name=property_value, ...)]
其中,[ROW FORMAT DELIMITED]关键字,是设置建表时加载数据所支持的列分隔符;
如果没有指定 ROW FORMAT 或者 ROW FORMAT DELIMITED,则会自动使用自带的 SerDe。