Hive数据存储模型

小新头秃了

已于 2024-06-22 16:53:55 修改

阅读量1.5k

点赞数 28

文章标签： hive hadoop 数据仓库

于 2024-03-18 14:30:22 首次发布

本文链接：https://blog.csdn.net/qq_62379241/article/details/136807162

版权

一. Hive存储格式

Hive中的数据分为真实数据与原数据，一般来说Hive的存储格式是指真实数据的存储格式。

Hive常见的存储格式包括以下4种：TEXTFILE、SEQUENCEFILE、RCFILE和ORCFILE。

1、TEXTFILE

Hive默认存储格式为TEXTFILE。存储格式为按行存储，内容为普通的文本格式，一般可以使用cat命令字节查看。

TEXTFILE支持使用Gzip压缩，但Gzip压缩后的文件将不再支持MapReduce分割机制，这意味着压缩后的文件不论有多少个HDFS块都只能被一个Map任务处理，即失去了使用集群并行处理的优势。

2、SEQUENCEFILE

SEQUENCEFILE是Hadoop提供的一种由“二进制序列化过的Key/Value字节流”组成的文本存储文件格式。其由于内容为二进制字节，所以无法通过cat命令查看原始字符，这可以抽象地理解为，在SEQUENCEFILE中每条记录均以键值对的方式进行存储，仅支持追加。与TEXTFILE类似，SEQUENCEFILE同样按行存储。

SEQUENCEFILE是可分割的文件格式，支持3种压缩选项。

（1）NONE：不压缩

（2）RECORD（默认选项）：记录级压缩，压缩率低

（3）BLOCK ：块级压缩，压缩吕高

3、RCFILE

RCFILE是Facebook开发的一种专门面对列的数据存储格式，是基于行列混合存储思想的设计。

RCFILE 是可分割的文件格式, 即在每个行组中,元数据头部(Metadata Header)和表格数据段会被分别压缩。对于元数据头部而言， RCFILE 会使用行程长度编码(RunLength Encoding, RLE) 算法压缩数据, 而对于表格数据段而言, 其每个列会通过 Gzip 压缩算法独立压缩。

4、ORCFILE

是对RCFILE的优化，支持压缩比很高的压缩算法，文件可切分，提供多种索引，支持复杂的数据结构。

二、Hive数据单元

1、数据库

数据库(Databases)类似于RDBMS中的数据库, 在 HDFS 中表现为 hive. metastore.warehouse. dir 目录下的一个文件夹，其本质是用于避免表、视图、分区、列等命名冲突的命名空间。

2、表

表(Tables) 由列构成，在表上可以进行过滤、映射、连接和联合操作。表在 HDFS中表现为所属数据库目录下的子目录，具体又分内部表和外部表。内部表类似于RDBMS中的表，由Hive管理。外部表指向已经存在HDFS中的数据，与内部表元数据组织是相同的，但其数据存放位置是任意的。外部表的真实数据不被Hive管理，即当删除一张内部表时，元数据以及 HDFS上的真实数据均被删除，而删除外部表则只会删除元数据而不会删除真实数据。

3、分区

每个表都可以按指定的键分为多个分区(Partitions)。分区的作用是提高查询的效率，其在HDFS中表现为表目录下的子目录。

4、分桶

根据表中某一列的哈希值可将数据划分为多个分桶(Buckets)，在 HDFS 中分桶表现为同一个目录下根据哈希散列之后的多个文件。

可以看到， Hive 中的数据单元划分与RDBMS 的物理模型非常类似。但在 Hive数据单元划分过程中还必须注意以下几点。