ORCFile是什么？

最新推荐文章于 2023-01-15 08:41:56 发布

Shockang

最新推荐文章于 2023-01-15 08:41:56 发布

阅读量1.2w

点赞数 14

分类专栏：大数据理论体系文章标签：大数据

本文链接：https://blog.csdn.net/Shockang/article/details/115739989

版权

大数据理论体系专栏收录该内容

99 篇文章

订阅专栏

ORC是专为Hadoop设计的列式存储格式，强调效率和空间优化，支持复杂数据类型和ACID特性。文件由stripe、footer和postscript组成，每个stripe包含索引、数据和尾部信息。ORC支持多种数据类型压缩，如RLE和字典编码，提供file、stripe和row级别的索引，便于查询和过滤。Hive利用ORC实现ACID特性，适合大数据批量处理而非高频事务场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写在前面

本文隶属于专栏《100个问题搞定大数据理论体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！

本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

解答

ORC是专为Hadoop设计的自描述的列式存储格式(Apache Hive0.11版本引入)，重点关注提高数据处理系统效率和降低数据存储空间。
它支持复杂数据类型、ACID及内置索引支持，非常适合海量数据的存储。

补充

特点

混合存储结构

先按行存储，一组行数据叫Stripes， Stripes内部按列存储。

ORCFile文件结构

ORCFile由stripe， footer和postscript三部分构成。

ORCFile文件结构

stripe是数据存储单元，一定数目的行数据组成一个 stripe，每个 stripe大小约为250MB， stripe是一个逻辑处理单元，可由一个任务单独处理。每个
stripe包含索引域、数据域和尾部域三部分，其中索引域记录每列最大值、最小值等信息，数据域以列为单位组织数据，尾部域存储了每列数据在数据域中的位置、编码方式等。
footer记录了 ORC File文件主体的布局，包括 schema信息、行总数、每行的统计信息等。
postscript记录了ORC文件级別的元信息，包括 footer长度、ORC版本号、采用的压缩算法等。