一、加载文件数据到表
1:hive常用DML(数据操纵语言)操作:select update insert delete
2:加载文件数据到表:hive>:load data [local] inpath “filepath” [overwrite] into table mingzi 或者外面输入:hdfs dfs -put wenjianlujing biaodeweizhi
a:LOCAL 关键字代表从本地文件系统加载文件,省略则代表从 HDFS 上加载文件
b:从 HDFS 加载文件时候,filepath 为文件完整的 URL 地址:如 hdfs://namenode:port/user/hive/project/ data1
c:filepath 可以是文件路径 (在这种情况下 Hive 会将文件移动到表中),也可以目录路径 (在这种情况下,Hive 会将该目录中的所有文件移动到表中)
d:如果使用 OVERWRITE 关键字,则将删除目标表(或分区)的内容,使用新的数据填充;不使用此关键字,则数据以追加的方式加入
e:加载的目标可以是表或分区。如果是分区表,则必须指定加载数据的分区
f:加载文件的格式必须与建表时使用 STORED AS 指定的存储格式相
3:建分区表:
CREATE TABLE emp_ptn(
empno INT,
ename STRING,
job STRING,
mgr INT,
hiredate TIMESTAMP,
sal DECIMAL(7,2),
comm DECIMAL(7,2)
)
PARTITIONED BY (deptno INT) – 按照部门编号进行分区
ROW FORMAT DELIMITED FIELDS TERMINATED BY “\t”;
从 HDFS 上加载数据到分区表:LOAD DATA INPATH “hdfs://hadoop001:8020/mydir/emp.txt” OVERWRITE INTO TABLE emp_ptn PARTITION (deptno=20);
二、查询结果插入到表
1:INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 …) [IF NOT EXISTS]]
select_statement1 FROM from_statement;
2:INTO TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 …)]
select_statement1 FROM from_statement;