Hive的数据存储

最新推荐文章于 2024-07-24 21:14:44 发布

木良Duncan

最新推荐文章于 2024-07-24 21:14:44 发布

阅读量942

点赞数

分类专栏： Hive 文章标签： hive hadoop 大数据

本文链接：https://blog.csdn.net/qq_45275284/article/details/129763556

版权

Hive 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

hive中的所有数据都存储在HDFS中,没有专门的数据存储格式(可支持Text、SequenceFile、ParquertFile、ORC格式)
只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据
Hive中包含一下数据模型:DB、Table、External Table、Partition、Bucket.
○ db：在hdfs中表现为hive.metastore.warehouse.dir目录下一个文件夹。
○ table：在hdfs中表现所属db目录下一个文件夹。
○ external table：与table类似，不过其数据存放位置可以在任意指定路径。
○ partition：在hdfs中表现为table目录下的子目录。
○ bucket：在hdfs中表现为同一个表目录下根据hash散列之后的多个文件。

TextFile

行存储文件（每一行就是一条记录），可以使用任意的分隔符进行分割，但无压缩，所以数据存储空间大。可以结合GZIP、SNAPPY等使用，但是hive并不会对数据进行切分，所以无法对数据进行并行处理。
ps:默认格式，数据不做压缩，磁盘开销大，数据解析开销大。

SequenceFile

行式存储，使用方便、可分割、可压缩。三种压缩可选：NONE,RECORD,BLOCK。Record压缩率低，一般建议使用BLOCK压缩。

ORC

以二进制方式存储，所以不可以直接读取，ORC文件也是自解析的，它包含许多元数据。ORC文件：保存在文件系统上的普通二进制文件，一个ORC文件可以包含多个stripe,每个stripe包含多条记录，这些记录按照列进行独立存储。
（1）ORC列式存储，有多种文件压缩方式，并且很高的压缩比
（2）文件可以切分
（3）提供多种索引，row group index、bloom filter index.
（4）ORC可以支持复杂的数据结构

Parquet

parquet文件以二进制方式存储，所以不可以直接读取，和ORC一样，文件的元数据和数据一起存储。所以Parquet格式文件是自解析的。（Hadoop生态系统中任何项目都可以使用研所，高效的列示数据表示形式）
（1）跨平台
（2）可被各种文件系统识别的格式
（3）按列存储数据
（4）存储元数据

	ORC	Parquet
嵌套结构	不可直接实现（map间接实现）	支持嵌套结构
导入数据和数据查询速度	快	相比ORC慢
ACID	支持	不支持
更新操作	支持	不支持
默认压缩	Zlib	Uncompressed
压缩格式	Node、Zlib、Snappy	Uncompressed、Snappy、Gzip、Lzo
数据压缩	最优（相比textFile50倍的磁盘空间）	Parquet使用gzip压缩率高，使用lzo、snappy效率高
SQL查询	较快	较快

木良Duncan

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Hive的数据存储

以二进制方式存储，所以不可以直接读取，ORC文件也是自解析的，它包含许多元数据。ORC文件：保存在文件系统上的普通二进制文件，一个ORC文件可以包含多个stripe,每个stripe包含多条记录，这些记录按照列进行独立存储。parquet文件以二进制方式存储，所以不可以直接读取，和ORC一样，文件的元数据和数据一起存储。行存储文件（每一行就是一条记录），可以使用任意的分隔符进行分割，但无压缩，所以数据存储空间大。（1）ORC列式存储，有多种文件压缩方式，并且很高的压缩比。（2）可被各种文件系统识别的格式。
复制链接

扫一扫

专栏目录