Parquet存储格式

最新推荐文章于 2024-05-26 00:15:00 发布

一个不会写代码的小黑

最新推荐文章于 2024-05-26 00:15:00 发布

阅读量1.6k

点赞数 1

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37332702/article/details/89569494

版权

Spark 专栏收录该内容

23 篇文章 1 订阅

订阅专栏

Parquet是一种列式存储格式，可用于Hadoop生态系统中的任何项目，无论选择何种数据处理框架，数据模型或编程语言。

特点：

a、更高的压缩比
parquet的gzip的压缩比率最高，若不考虑备份可以达到27倍。可能这也是spar parquet默认采用gzip压缩的原因吧。

b、只读取需要的列，支持向量运算，能够获取更好的扫描性能
跳过不符合条件的数据，只读取需要的数据，降低 IO 数据量
如果你的数据字段非常多，但实际应用中，每个业务仅读取其中少量字段，parquet将是一个非常好的选择。

d、二进制存储
Parquet文件是以二进制方式存储的，所以是不可以直接读取的，文件中包括该文件的数据和元数据，因此Parquet格式文件是自解析的。

c、 Spark SQL 的默认数据源
可通过 spark.sql.sources.default 配置

适配的组件

查询引擎: Hive, Impala, Pig, Presto, Drill, Tajo, HAWQ, IBM Big SQL
计算框架: MapReduce, Spark, Cascading, Crunch, Scalding, Kite
数据模型: Avro, Thrift, Protocol Buffers, POJOs

Parquet的数据模型

每条记录中的字段可以包含三种类型：required, repeated, optional。最终由所有叶子节点来代表整个schema。

元组的Schema可以转换成树状结构，根节点可以理解为repeated类型
所有叶子结点都是基本类型
没有Map、Array这样的复杂数据结构，但是可以通过repeated和group组合来实现这样的需求

一个不会写代码的小黑

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。