hive存储格式对比

1、TextFile

默认的存储格式,普通的文本文件,行式存储,无压缩,基本不采用

2、Sequencefile

行式存储,key vaule 的形式存在,二进制文件,支持压缩,一般采用Block压缩。写和读比较快,不允许load方式加载数据,需要insert。

在大数据计算中,一般的行式存储基本不采用

3、Rcfile

数据按行分块,每块按照列存储,提高查询效率,不允许load方式加载数据,需要insert

4、Orc

数据按行分块,每块数据按照列存储,条形存储,对rc进行优化,存储了一些索引以及其他的辅助信息,可以快速查询检索

5、Parquet

面向列的二进制存储文件,大型查询效率高效,支持压缩格式,默认snappy压缩方式,

目前市面上使用最多的是Orc 和 Parquet ,

那么 Orc 和 Parquet 的区分

a、均采用列式存储

b、都是数据按行分组,形成RowGroup ,再按照列进行存储

 不同点

Parquet是等数量记录划分,ORC划分的stripe不一定相同

Parquet更能存储嵌套数据,且适配Spark计算引擎

Parquet在按列存储的基础上,对ColumnChunk进行分页;对于字符类型的字段可采取字典编码形成DictionaryPage,提升存储效率

Parquet在Page上采用索引机制,记录类型Max-Min等指标提升查询效率

ORC 支持 ACID 属性

ORC 的压缩效率更高

 

 无特殊要求,选择Orc即可

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值