大数据高频面试题之Hive的数据存储格式

本文介绍了Hive的四种主要数据存储格式:textfile、sequencefile、rcfile和parquet。textfile是默认的文本格式,占用空间大,分析成本高;sequencefile是二进制格式,支持压缩和分割,适合写和查询;rcfile采用行列混合存储,提高查询效率,但写入较慢;parquet是自定义输入输出格式,适用于大数据场景。各格式在创建表和加载数据时有不同的注意事项,如sequencefile和rcfile不支持load数据,需使用insert语句插入。
摘要由CSDN通过智能技术生成

类型
texfile:默认的存储格式:普通的文本文件,数据不压缩,磁盘的开销比较大,分析开销大。
sequencefile:提供的一种二进制存储格式,可以切割,天生压缩。
rcfile:提供的是一种行列混合存储方式,该方式会把相近的行和列数据放在一块儿,存储比较耗时,查询效率高,也天生压缩。
orc:是rcfile的一种优化存储。
parquet:自定义输入输出格式。
具体描述
1)texfile普通文本文件(通常默认的就是这个格式)
创建表

create table if not exists one (id int,name string)
row format delimited fileds terminated by’\t’storted as textfile;
加载数据
load data local inpath ‘localpath’ into table one;

2)sequencefile二进制放式:
hive提供的二进制序列文件存储,天生压缩。默认支持压缩、分割,使用便捷、写和查询较快。sequencefile和压缩属性可以搭配使用
注意:sequeceFile不允许使用load方式加载数据。需要使用insert 方式插入。

创建数据

create table if not exists tow(id int,name string)
row format delimited fields terminated by '\t’lines terminated by '\n’stored as sequencefile;
加载数据正确方式

insert into

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值