ORC 查询流程

最新推荐文章于 2024-07-24 09:15:39 发布

铁头乔

最新推荐文章于 2024-07-24 09:15:39 发布

阅读量1.1k

点赞数 1

分类专栏： Spark 文章标签： ORC

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qiaojialin/article/details/90300293

版权

本文介绍了ORC文件格式的结构，强调了其在RowGroup层进行过滤的特性。详细阐述了ORC文件的读取流程，从OrcFile.createReader()开始，涉及VectorizedRowBatch、RecordReaderImpl和过滤器SargApplier。还讨论了一个潜在问题，即即使有特定查询条件，也可能读取到不完全匹配的数据批处理(batch)。

摘要由CSDN通过智能技术生成

ORC 文件格式

ORC 文件分成多个 Stripe，Stripe 里又分为多个 RowGroup，每个 RowGroup 包含文件中的所有列的一部分数据，每个 RowGroup 默认有 10000 行元组。查询时只在 RowGroup 层做过滤，检查各个列中是否可能存在结果。十分粗粒度，不能保证读出来的每一行都满足条件。

ORC 读取流程

OrcFile.createReader() 时读取文件的 Footer 和 Metadata 信息，记录文件中的 Stripe，每个 Stripe 是包含所有列的一部分数据段。是 Orc 文件的最大的粒度。

创建一个 VectorizedRowBatch，这个东西主要负责存放查出来的数据。查询的schema里有几列，VectorizedRowBatch 中就有几列，每一列是原始数据类型的数组，默认长度 1024。
创建 RecordReaderImpl 对象，用来读数据，同时构造过滤器 SargApplier，创造 DataReader。
读取第一行满足要求的数据。RecordReaderImpl.advanceToNextRow()，读第一个 Stripe
读 Stripe 的流程: RecordReaderImpl.beginReadStripe()
- 读 StripeInformation，包括 Stripe Footer
- 对 Stripe 内的每一个 RowGroup 进行过滤: Re

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。