hive存储格式的对和存储压缩相结合

Hive支持的存储格式包括TEXTFILE、SEQUENCEFILE、ORC和PARQUET,其中ORC和PARQUET为列存,提供更高的压缩比。TEXTFILE配合Gzip或Bzip2可压缩,但Gzip不支持并行操作。ORC是Hive 0.11版引入的高效格式,支持NONE, ZLIB, SNAPPY压缩。压缩比:ORC > Parquet > TEXTFile。" 94434399,7329051,Bootstrap fileinput 同步上传回调解析,"['Bootstrap', '前端开发', 'javascript']
摘要由CSDN通过智能技术生成

Hive支持的存储数据的格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET。

TEXTFILE 、SEQUENCEFILE为行存

ORC、PARQUET为列存

 TextFile格式:默认格式,数据不做压缩,磁盘开销大,数据解析开销大。可结合Gzip、Bzip2使用,但使用Gzip这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作。

Orc格式:Orc (Optimized Row Columnar)是Hive 0.11版里引入的新的存储格式。

文件存储格式的对比:

(1)创建表,存储数据格式为TEXTFILE

create table log_text (
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
row format delimited fields terminated by '\t'
stored as textfile;  //此行可以省略,默认的存储格式就是text
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值