文章目录
一、Hive基础语句
1、数据库操作
drop database databasename; -- 这个只能删除空库
drop database databasename cascade; -- 如果不是空库,则可以加cascade强制删除
2、表操作
select current_database(); -- 查看当前在哪个数据库下面
desc formatted tablename; -- 查看表的详细信息
-- EXTERNAL_TABLE为外部表
-- MANAGED_TABLE为内部表
create table mydb01.user2(
id int,
name string,
age int,
height double
)
comment "这是一个学生表" -- 描述信息
row format delimited
fields terminated by '\t' -- 指定列的分隔符为 \t,如果不指定,默认为 ^A
lines terminated by '\n' -- 指定行的分隔符为 \n,如果不指定,默认为 \n
stored as textfile; -- 指定存储类型为 text,如果不指定,默认为 text
二、加载数据到Hive
1、加载本地数据到Hive
load data local inpath "/home/hivedata/emp.txt" into table emp;
2、加载hdfs中的数据到Hive
load data inpath "/home/hivedata/emp.txt" into table emp;
3、从其他表导入数据到Hive
insert into table emp2 select * from emp;
-- 向多张表插入:
from tableName1
insert into tableName2 select * where 条件
insert into tableName3 select * where 条件
三、Hive数据导出
1、Hive数据导出到本地
insert overwrite local directory "/home/hivedata/emp.txt" select * from emp;
2、Hive数据导出到hdfs
insert overwrite directory "/home/hivedata/emp.txt" select * from emp;
四、内部表和外部表
1、区别
一般来说,内部表存放位置固定,删除表时,不仅会删除表的元数据,真正的数据也会被删除
外部表一般都会指定存放位置,删除表时,会删除表的元数据,但不会删除真正的数据
2、建表语句
外部表:
-- external关键字用来创建外部表,location用来指定存放位置
create external table t_user7(
id int,
name string
)
row format delimited
fields terminated by ','
location '/publicData'
内部表
-- 没有external关键字,也不用location指定存放位置
create external table t_user7(
id int,
name string
)
row format delimited
fields terminated by ','
五、Hive中的Serde
1、OpenCSVSerde
默认为逗号分隔,也可以指定分隔符
row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
-- 指定分隔符为‘7’
with serdeproperties(
"separatorChar"="7"
);
2、json serde
可以解析json的数据
-- org.openx.data.jsonserde.JsonSerDe 这个类是第三方的类,所以要导入包
row format serde 'org.openx.data.jsonserde.JsonSerDe';
-- hive自带的:
row format serde 'org.apache.hive.hcatalog.data.JsonSerDe';
六、Hive的存储格式
1、textfile: 纯文本文件存储格式
2、sequencefile:会压缩,不能使用load方式加载数据
3、parquet:会压缩,不能使用load方式加载数据
4、rcfile:会压缩,不能load。查询性能高,写操作慢,所需内存大,计算量大。此格式为行列混合存储,hive在该格式下,会尽量将附近的行和列的块存储到一起
5、orcfile:rcfile的升级版