Hive表的类型
内部表
- 创建表
CREATE TABLE gfstbl(
id INT,
name STRING,
age INT,
gfs ARRAY<STRING>,
address MAP<STRING,STRING>,
info STRUCT<country:String,province:String,city:String>
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ' '
COLLECTION ITEMS TERMINATED BY ','
MAP KEYS TERMINATED BY ':'
LINES TERMINATED BY '\n';
LOCATION "/test" //可以设置源数据的位置,若不设置默认就在Hive的工作目录区
- 查看表的描述信息
DESCRIBE [EXTENDED|FORMATTED] table_name;
//EXTENDED;极简的方式显示
//FORMATTED;格式化方式来显示
例
DESCRIBE EXTENDED gfstbl;//默认就是EXTENDED
- 其他创建表的方式
//只是创建表结构
create table gfstbl1 like gfstbl;
//会创建相应的表结构,并且插入数据
create table gfstbl2 AS SELECT id,name,gfs,address from gfstbl;
- 插入数据的方式
- insert方式
insert into table_name values();
- load方式
这种方式实际是将文件剪切粘贴到表的工作目录区中
load data [local] inpath "/路径" into table table_name;
- 从其他表中查询数据insert到新表中
INSERT INTO TABLE tablename1
[PARTITION (partcol1=val1, partcol2=val2 ...)]
select_statement1 FROM from_statement;
//习惯写法将from提前
FROM from_statement
INSERT OVERWRITE TABLE tablename1
[PARTITION (partcol1=val1, partcol2=val2 ...)
[IF NOT EXISTS]] select_statement1
例
from day_hour_table
insert into rest
select count(*) from day_hour_table;
外部表
外部表在删除时只会删除表(即元数据),不会删除hdfs上的源数据
- 创建表
create external table wc_external
(word1 STRING,
word2 STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ' '
location '/test/external';
//location可加可不加,不加location默认是在hive的工作目录区
- 关于load操作
- 创建一个文件并输入符合表的规则的数据,再将这个文件复制到这个表的工作目录区中,查询该表,发现表的数据量增多
- 用load data将工作目录中的文件再次添加添加到这个表中,发现表的数据量没有增加
- 将文件复制到hdfs上的其他目录中,再次用load操作添加到表中,发现表中数据量增加,且原目录中的文件消失(即正常load操作,数据被剪切进表文件中)
临时表
- 创建表
临时表的声明周期是一次会话
进入hive shell 创建一张表,关闭shell后,表丢失
临时表不支持分区create TEMPORARY table ttabc(id Int,name String);
- 关于shell
- 所有shell共有的reql机制
- read:读
- evaluate:计算
- print:打印
- loop:循环
- 所有shell共有的reql机制
- 使用yarn命令干掉某一个application
yarn application -kill job_1540028621068_0006