hive的存储格式及压缩

本文介绍了Hive的存储格式,包括行式存储与列式存储的特点和优缺点,如TEXTFILE、SequenceFile、ORC和PARQUET格式,并讨论了存储格式配合压缩的实验,以及行式存储与列式存储在查询性能上的差异。实验结果显示,启用压缩后数据体积减小,而ORC和PARQUET列式存储在查询特定列时表现出更高的效率。
摘要由CSDN通过智能技术生成

行式存储与列式存储

在这里插入图片描述
行式存储
特点:
保证一条记录里面的所有字段能够存放在同一个hdfs的block里
优点:
当查询所有(select * from tbname)时,能直接查询出来
缺点:
不同列的字段类型不同,压缩性能差,空间利用率差
只查询某几列数据的时候,必须先把所有数据读取进来,在提取所需的几列,结果会增加磁盘IO,效率低

列式存储
优点:
每一列的数据类型是一样的,所有可以采用一定压缩方式,压缩性能好
只查询某几列数据的时候,对于不需要的列,可以直接跳过
缺点:
当查询所有(select * from tbname)时,对于行的数据必然会重组

存储格式

TEXTFILE格式
默认格式,数据不做压缩,磁盘开销大,数据解析开销大。可结合Gzip、Bzip2使用(系统自动检查,执行查询时自动解压),但使用这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作。
SequenceFile(行式存储)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值