Hive存储格式

最新推荐文章于 2024-06-06 12:30:35 发布

lili_wuwu

最新推荐文章于 2024-06-06 12:30:35 发布

阅读量1.9k

点赞数

分类专栏：每天一点HIVE 文章标签： hive

本文链接：https://blog.csdn.net/lili_wuwu/article/details/90897195

版权

每天一点HIVE 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Hive的四种存储格式；TextFile、SequenceFile、RCFile、Parquet

基于行存储:TextFile和SequenceFile
基于列存储：Parquet
基于行列混合的思想：RCFile——先按行把数据划分成N个row group，在row group中对每个列分别进行存储

列式存储和行式存储的比较

	优点	缺点
行式存储	一行数据是一条记录，放在同一个block块中	只查询几个列时，也会读取整行的数据，当数据量大时，影响性能
	方便进行insert/update操作	不同类型的数据放在同一个block中，导致不容易获得一个极高的压缩比，也就是空间利用率不高
		不是所有的列都适合作为索引
列式存储	查询时只有涉及到的列才会被查询	insert/update不方便
	同类型数据存放在同一个block块里面，压缩性能好，节省存储空间、计算内存和cpu	不适合扫描数据量小的数据
	任何列都可以作为索引	查询全表时需要数据重组

TextFile

Hive默认格式，数据不做压缩，磁盘开销大，数据解析开销大

SequenceFile

SequenceFile是Hadoop API 提供的一种二进制文件，它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。

RCFile

RCFile是Hive推出的一种专门面向列的数据格式。它遵循“先按列划分，再垂直划分”的设计理念。当查询过程中，针对它并不关心的列时，它会在IO上跳过这些列。需要说明的是，RCFile在map阶段从远端拷贝仍然是拷贝整个数据块，并且拷贝到本地目录后RCFile并不是真正直接跳过不需要的列，并跳到需要读取的列，而是通过扫描每一个row group的头部定义来实现的，但是在整个HDFS Block 级别的头部并没有定义每个列从哪个row group起始到哪个row group结束。所以在读取所有列的情况下，RCFile的性能反而没有SequenceFile高。

Parquet

Parquet是不跟任何数据处理技术绑定在一起的，可以用于多种数据处理框架

hive的数据存储
1、Hive中所有的数据都存储在 HDFS 中，没有专门的数据存储格式（可支持Text，SequenceFile，ParquetFile，RCFILE等）
2、只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就可以解析数据。
3、Hive 中包含以下数据模型：DB、Table，External Table，Partition，Bucket。
db：在hdfs中表现为${hive.metastore.warehouse.dir}目录下一个文件夹
table：在hdfs中表现所属db目录下一个文件夹
external table：外部表, 与table类似，不过其数据存放位置可以在任意指定路径
普通表: 删除表后, hdfs上的文件都删了
External外部表删除后, hdfs上的文件没有删除, 只是把文件删除了
partition：在hdfs中表现为table目录下的子目录
bucket：桶, 在hdfs中表现为同一个表目录下根据hash散列之后的多个文件, 会根据不同的文件把数据放到不同的文件中

lili_wuwu

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Hive存储格式

Hive的四种存储格式；TextFile、SequenceFile、RCFile、Parquet基于行存储:TextFile和SequenceFile 基于列存储：Parquet 基于行列混合的思想：RCFile——先按行把数据划分成N个row group，在row group中对每个列分别进行存储列式存储和行式存储的比较优点缺点行式存储...
复制链接

扫一扫