列式存储格式该如何选择？

最新推荐文章于 2024-05-26 00:15:00 发布

Shockang

最新推荐文章于 2024-05-26 00:15:00 发布

阅读量2.1w

点赞数 14

分类专栏：大数据理论体系文章标签：大数据

本文链接：https://blog.csdn.net/Shockang/article/details/115740028

版权

大数据理论体系专栏收录该内容

99 篇文章 296 订阅

订阅专栏

写在前面

本文隶属于专栏《100个问题搞定大数据理论体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！

本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

解答

大数据框架中常用的列式存储格式有Parquet和ORC。

ORC通常作为数据表的数据格式应用在Hive和Presto等计算引擎中，它们对ORC读写进行了优化;

而Parquet提供了非常易用的读写API，用户可在应用程序(比如Spark或Mapreduce等分布式程序)中直接读写 Parquet格式的文件。

一般情况下，如果不是为了支持ACID特性和使用Hive等框架，列式存储格式建议首选Parquet。毕竟Parquet被称为大数据时代存储格式的事实标准。

在这里插入图片描述

补充

Parquet和ORC对比

对比要素	Parquet	ORC
现状	Apache顶级项目，自描述的列式存储格式
主导公司	Twitter/Cloudera	Hortonworks
开发语言	Java(Impala提供了C++实现)	Java/C++
列编码	支持多种编码，包括RLE、 delta、字典编码等	与 Parquet类似
嵌套式结构	通过与嵌套式数据模型Protobuf、Thrift、Avro等适配，完美支持嵌套式结构	使用Hive复杂数据结构，比如通过list、 struct、map等实现嵌套嵌套层数较多时过于烦琐。
ACID	不支持	支持粗粒度ACID
索引	支持Row Group/Chunk/Page级别索引	支持File/Stripe/Row级别索引
支持的计算引擎	Hive、Presto、Impala和Spark等	Hive、 Presto和 Spark等
查询性能	据Netflix公布的测试结果，ORC稍高
压缩能力	一般情况下，ORC能达到更高的压缩比，同等规模数据占用的磁盘空间更小

Parquet

详情请见我的另一篇博客——Parquet是什么

ORC

详情请见我的另一篇博客——ORCFile是什么？

Shockang

关注

14
点赞
踩
14

收藏

觉得还不错? 一键收藏
23
评论
列式存储格式该如何选择？

写在前面本文隶属于专栏《100个问题搞定大数据理论体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和文献引用请见100个问题搞定大数据理论体系解答大数据框架中常用的列式存储格式有Parquet和ORC。ORC通常作为数据表的数据格式应用在Hie和Presto等计算引擎中，它们对ORC读写进行了优化;而Parquet提供了非常易用的读写API，用户可在应用程序(比如Spark或Mapreduce等分布式程序)中直接读写 Parquet格式的文
复制链接

扫一扫

专栏目录