hive存储格式

本文详细介绍了Hive的几种存储格式,包括textfile(默认格式,数据不做压缩)、sequencefile(Hadoop二进制文件格式,可压缩)、rcfile(行列存储结合,利于压缩和列存储)以及orcfile(rcfile的优化版,提供更高性能和压缩效率)。此外,还提到了自定义格式的可能性以及各种格式的优缺点和适用场景。
摘要由CSDN通过智能技术生成

hive文件的存储格式:textfile、sequencefile、rcfile、自定义格式

1. textfile
    textfile,
即是文本格式,默认格式,数据不做压缩,磁盘开销大,数据解析开销大

    对应hive API为org.apache.hadoop.mapred.TextInputFormatorg.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat

2.sequencefile
 
sequencefile,是Hadoop提供的一种二进制文件格式是Hadoop支持的标准文件格式(其他生态系统并不适用),
  可以直接将
对序列化到文件中,所以sequencefile文件不能直接查看,可以通过Hadoop fs -text查看。
  具有使用方便,可分割,可压缩,可进行切片。压缩支持
NONE, RECORD, BLOCK(优先)等格式,可进行切片。

     对应hive API为org.apache.hadoop.mapred.SequenceFileInputFormat和org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
 

3.rcfile
 大多数的
Hadoophive存储是行式储存,在大多数环境下比较高效,因为大多数表具有的字段个数都不会很大,
 
且文件按块压缩对于需要处理重复数据的情况比较高效,同时处理和调试工具(moreheadawk)都能很好的适应行式存储的数据。
   

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值