类型
texfile:默认的存储格式:普通的文本文件,数据不压缩,磁盘的开销比较大,分析开销大。
sequencefile:提供的一种二进制存储格式,可以切割,天生压缩。
rcfile:提供的是一种行列混合存储方式,该方式会把相近的行和列数据放在一块儿,存储比较耗时,查询效率高,也天生压缩。
orc:是rcfile的一种优化存储。
parquet:自定义输入输出格式。
具体描述
1)texfile普通文本文件(通常默认的就是这个格式)
创建表
create table if not exists one (id int,name string)
row format delimited fileds terminated by’\t’storted as textfile;
加载数据
load data local inpath ‘localpath’ into table one;
2)sequencefile二进制放式:
hive提供的二进制序列文件存储,天生压缩。默认支持压缩、分割,使用便捷、写和查询较快。sequencefile和压缩属性可以搭配使用
注意:sequeceFile不允许使用load方式加载数据。需要使用insert 方式插入。
创建数据
create table if not exists tow(id int,name string)
row format delimited fields terminated by '\t’lines terminated by '\n’stored as sequencefile;
加载数据正确方式
insert into