Hive 中的压缩格式对比

最新推荐文章于 2023-07-04 14:02:55 发布

Lens5935

最新推荐文章于 2023-07-04 14:02:55 发布

阅读量1k

点赞数

分类专栏： Hive 文章标签：数据仓库 hadoop 数据库大数据 hive

原文链接：https://www.cnblogs.com/gentlemanhai/p/11275442.html

版权

34 篇文章 12 订阅

订阅专栏

默认格式，存储方式为行存储，数据不做压缩，磁盘开销大，数据解析开销大。
可结合Gzip、Bzip2使用(系统自动检查，执行查询时自动解压)，但使用这种方式，压缩后的文件不支持split，Hive不会对数据进行切分，从而无法对数据进行并行操作。
并且在反序列化过程中，必须逐个字符判断是不是分隔符和行结束符，因此反序列化开销会比SequenceFile高几十倍。

SequenceFile是Hadoop API提供的一种二进制文件支持，以key-value的形式序列化到文件中,存储方式为行存储，其具有使用方便、可分割、可压缩的特点。
压缩数据文件可以节省磁盘空间，但Hadoop中有些原生压缩文件的缺点之一就是不支持分割。支持分割的文件可以并行的有多个mapper程序处理大数据文件，大多数文件不支持可分割是因为这些文件只能从头开始读。Sequence File是可分割的文件格式，支持Hadoop的block级压缩。
SequenceFile支持三种压缩选择：NONE，RECORD，BLOCK。RECORD是默认选项,Record压缩率低,通常BLOCK会带来较RECORD更好的压缩性能,一般建议使用BLOCK压缩。
优势是文件和hadoop api中的MapFile是相互兼容的。

是一种列式数据存储格式，可以兼容多种计算引擎，如MapRedcue 和Spark等，对多层嵌套的数据结构提供了良好的性能支持，是目前Hive 生产环境中数据存储的主流选择之一。

相比TEXTFILE和SEQUENCEFILE，RCFILE由于列式存储方式，数据加载时性能消耗较大，但是具有较好的压缩比和查询响应。

数据仓库的特点是一次写入、多次读取，因此，整体来看，RCFILE相比其余两种格式具有较明显的优势。

ORCFILE 相比 RCFILE 可节省存储空间，在计算效率上多数场景RCFILE更优

注：存储压缩比例和数据内容相关，不同数据测试可能不同

关注