orc与parquet格式的选择

最新推荐文章于 2023-02-14 17:27:25 发布

哥伦布112

最新推荐文章于 2023-02-14 17:27:25 发布

阅读量904

点赞数

分类专栏：小点

本文链接：https://blog.csdn.net/u013939918/article/details/107586849

版权

小点专栏收录该内容

19 篇文章 4 订阅

订阅专栏

对于orc与parquet这两种列式存储格式，网上能找到大量的介绍以及对比，此处简单总结一下：

orc VS parquet：
orc存储压缩率比parquet要高；
一般来说，orc读取效率比parquet要高；
parquet支持嵌套数据格式，orc原生不支持嵌套数据类型（但可通过复杂数据类型如map<k,v>间接实现，此处情况即对应第二条中的“特例”，影响性能）；
parquet支持字段扩展，orc原生不支持字段扩展（但可手动重写读取方法实现，此处也对应第二条中的“特例”）；
应用场景：
原始数据层：数据量大，统一通用化模型结构（无须嵌套数据格式，以一个String类型或map<string, string>的扩展字段进行存储业务新增字段，程序读取时自行解析），读取方式多为中间数据处理程序；—— orc
数据应用层：数据模型直接关联到业务场景逻辑，需要字段可扩展性，需要嵌套数据结构（尽量以扁平式数据结构设计模型，少使用嵌套数据结构，可以更好的利用列式存储性能），数据量较小或不考虑数据量存储问题（已经是具体业务场景，相比原始数据，数据量应该是很小的，设计时保证“高内聚低耦合”）。—— parquet
总结：
使用扁平式数据结构设计模型（表），尽量避免嵌套数据结构，可以更好的利用列式存储性能；模型设计适用于退化维度，牺牲空间设计全维度的模型来提高数据查询效率（无须再进行join关联维度表）。
*注：orc格式数据读取时，兼容历史数据字段（原生不支持字段扩展性），可先读取数据，转为json，再合并数据，即可实现数据字段的兼容；

当hive加载orc格式数据源时：

ROW FORMAT SERDE
'org.apache.hadoop.hive.ql.io.orc.OrcSerde'
STORED AS INPUTFORMAT
'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'
此时自定义读取方法（兼容字段扩展性）OrcInputFormatNew()方法，提交jar至集群，add jar 至class path，注册udf函数。（未实践）

哥伦布112

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
orc与parquet格式的选择

对于orc与parquet这两种列式存储格式，网上能找到大量的介绍以及对比，此处简单总结一下：orc VS parquet：orc存储压缩率比parquet要高；一般来说，orc读取效率比parquet要高；parquet支持嵌套数据格式，orc原生不支持嵌套数据类型（但可通过复杂数据类型如map<k,v>间接实现，此处情况即对应第二条中的“特例”，影响性能）；parquet支持字段扩展，orc原生不支持字段扩展（但可手动重写读取方法实现，此处也对应第二条中的“特例”）；应用场景：
复制链接

扫一扫