大数据中常用的几种数据格式对比(avro、orc、parquet)

最新推荐文章于 2024-05-26 00:15:00 发布

~shallot~

最新推荐文章于 2024-05-26 00:15:00 发布

阅读量1w

点赞数 3

分类专栏： spark 文章标签： avro orc parquet 列式存储 schema evolution

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dylanzr/article/details/84553434

版权

spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

不同数据格式特点

1). AVRO:

主要为行存储
设计的主要目标是为了满足schema evolution
schema和数据保存在一起

2). ORC：

面向列的存储格式

由Hadoop中RC files 发展而来，比RC file更大的压缩比，和更快的查询速度
Schema 存储在footer中
不支持schema evolution
支持事务(ACID)
为hive而生，在许多non-hive MapReduce的大数据组件中不支持使用
高度压缩比并包含索引

3). Parquet：

与ORC类似，基于Google dremel
Schema 存储在footer
列式存储
高度压缩比并包含索引
相比ORC的局限性，parquet支持的大数据组件范围更广

如何选择不同的数据格式

考虑因素：

读写速度
按行读多还是按列读多
是否支持文件分割
压缩率
是否支持schema evolution

不同数据格式最佳实践

读取少数列可以选择面向列存储的ORC或者Parquet
如果需要读取的列比较多，选择AVRO更优
如果schema 变更频繁最佳选择avro
实际上随着版本不断更新，现在parquet和orc都在一定程度上支持schema evolution，比如在最后面加列
ORC的查询性能优于Parquet

关注

3
点赞
踩
17

收藏

觉得还不错? 一键收藏
5
评论
大数据中常用的几种数据格式对比(avro、orc、parquet)

不同数据格式特点1). AVRO:主要为行存储设计的主要目标是为了满足schema evolutionschema和数据保存在一起2). ORC：面向列的存储格式由Hadoop中RC files 发展而来，比RC file更大的压缩比，和更快的查询速度Schema 存储在footer中不支持schema evolution为hive而生，在许多non-hive MapR...
复制链接

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。