Hive>Hive支持的数据存储格式

最新推荐文章于 2024-10-07 21:38:53 发布

原创

最新推荐文章于 2024-10-07 21:38:53 发布 · 1.1k 阅读

CC 4.0 BY-SA版权

文章标签：

本文详细介绍了Hive支持的四种数据存储格式：TEXTFILE、ORC和PARQUET，重点对比了列式存储与行式存储的优缺点。ORC和PARQUET作为列式存储格式，具有更好的压缩比和查询效率，其中ORC的索引特性使其在查询速度上优于PARQUET。

hive的数据存储格式

在实际的项目开发当中，hive表的数据存储格式一般选择：orc或parquet。压缩方式一般选择snappy。
Hive支持的存储数据的格式主要有：TEXTFILE（行式存储）、SEQUENCEFILE(行式存储)、ORC（列式存储）、PARQUET（列式存储）。

在这里插入图片描述
上图左边为逻辑表，右边第一个为行式存储，第二个为列式存储。

行存储的特点： 查询满足条件的一整行数据的时候，行存储只需要找到其中一个值，其余的值都在相邻地方。列存储则需要去每个聚集的字段找到对应的每个列的值，所以此时行存储查询的速度更快。
列存储的特点： 因为每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量；每个字段的数据类型一定是相同的，列式存储可以针对性的设计更好的设计压缩算法。

TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的；
ORC和PARQUET是基于列式存储的。

默认格式，数据不做压缩，磁盘开销大，数据解析开销大。可结合Gzip、Bzip2使用(系统自动检查，执行查询时自动解压)，但使用这种方式，hive不会对数据进行切分，从而无法对数据进行并行操作。