hive文件存储格式包括以下几类:
•TEXTFILE
•SEQUENCEFILE
•RCFILE
•自定义格式
SEQUENCEFILE:
SequenceFile是Hadoop API提供的一种二进制文件支持,其具有使用方便、可分割、可压缩的特点。
SequenceFile支持三种压缩选择:NONE, RECORD, BLOCK。 Record压缩率低,一般建议使用BLOCK压缩。
示例:
stored as rcfile
location '/group/tbdataapplication/mirror/r_auction_auctions_mirror_rc/';
RCFILE
RCFILE是一种行列存储相结合的存储方式。首先,其将数据按行分块,保证同一个record在一个块上,避免读一个记录需要读取多个block。其次,块数据列式存储,有利于数据压缩和快速的列存取。
RCFILE文件示例:
stored as rcfile
location '/group/tbdataapplication/mirror/r_auction_auctions_mirror_rc/';