hive 文件格式（列式存储-parquet&orc）

最新推荐文章于 2024-04-11 22:52:36 发布

大数据队长

最新推荐文章于 2024-04-11 22:52:36 发布

阅读量1.3k

点赞数

文章标签： hive 大数据 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/data_man_online/article/details/126082411

版权

传统的行式数据库，数据按行存储，在没有使用索引的情况下，如果要查询一个字段，需要将整行的数据查找出来，再找到相应的字段，这样的操作是比较消耗I/O资源的。最初的解决方式是建立Hive索引。Hive建立索引是一项比较消耗集群资源的工作，并且需要时刻关注是否更新。数据如有更新，就需要对索引进行重建。数据有更新却没有及时重建或者忘了重建，则会引发使用过程的异常。正是建立Hive索引成本高，又极容易引发异常，所以在实际生产中，Hive索引很少被用到。那列式存储可以解决这个问题。

列式存储的数据则是按列进行存储，每一列存储一个字段的数据，在进行数据查询时就好比走索引查询，效率较高。但是如果需要读取所有的列，例如一个数据平台刚接入数据，需要对所有的字段进行校验过滤，在这种场景下列式存储需要花费比行式存储更多的资源，因为行式存储读取一条数据只需要一次I/O操作，而列式存储则需要花费多次，列数越多消耗的I/O资源越多

ORC格式

ORC存储的文件是一种带有模式描述的行列式存储文件。ORC有别于传统的数据存储文件，它会将数据先按行组进行切分，一个行组内部包含若干行，每一行组再按列进行存储，下图为简化图

ORC 的行列式存储结构结合了行式和列式存储的优点，在有大数据量扫描读取时，可以按行组进行数据读取。如果要读取某个列的数据，则可以在读取行组的基础上，读取指定的列，而不需要读取行组内所有行的数据及一行内所有字段的数据

ORC 文件结构分为三部分ÿ

最低0.47元/天解锁文章

大数据队长

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
hive 文件格式（列式存储-parquet&orc）

传统的行式数据库，数据按行存储，在没有使用索引的情况下，如果要查询一个字段，需要将整行的数据查找出来，再找到相应的字段，这样的操作是比较消耗I/O资源的。但是如果需要读取所有的列，例如一个数据平台刚接入数据，需要对所有的字段进行校验过滤，在这种场景下列式存储需要花费比行式存储更多的资源，因为行式存储读取一条数据只需要一次I/O操作，而列式存储则需要花费多次，列数越多消耗的I/O资源越多。如果要读取某个列的数据，则可以在读取行组的基础上，读取指定的列，而不需要读取行组内所有行的数据及一行内所有字段的数据。..
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。