Parquet 学习笔记

最新推荐文章于 2024-05-26 00:15:00 发布

铁头乔

最新推荐文章于 2024-05-26 00:15:00 发布

阅读量3.7k

点赞数 2

分类专栏：数据库基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qiaojialin/article/details/81032318

版权

背景

2010年 google 发表了一篇论文《Dremel: Interactive Analysis of Web-Scale Datasets》，介绍了其 Dermel 系统是如何利用列式存储管理嵌套数据的，嵌套数据就是层次数据，如定义一个班级，班级由同学组成，同学的信息有学号、年龄、身高等。

Parquet 是 Dremel 的开源实现，作为一种列式存储文件格式，2015年称为 Apache 顶级项目，后来被 Spark 项目吸收，作为 Spark 的默认数据源，在不指定读取和存储格式时，默认读写 Parquet 格式的文件。

今天不介绍嵌套数据是如何映射到每一列了，简单来说就是把不同层级的属性拍到一级，类似降维打击。这样，一个嵌套数据可以看成独立的多个属性，每一个属性就是一列，和表结构差不多。

写流程

虽然是按列存储，但数据是一行一行来的，那什么时候将内存中的数据写文件呢？我们知道文件只能顺序写，假如每收到一行数据就写入磁盘，那就是行式存储了。

一个解决方案是为每个列开一个文件，假如数据有 n 个属性，就需要 n 个文件，每次写数据就需要追加到 n 个文件中。但是对于文件格式来说，用户肯定希望把复杂的数据存到一个文件中，而不希望管理一堆小文件（可以想象你做了一个ppt，每一页存成了一个文件），所以一个 Parquet 文件中必须存储数据的所有属性。

另一个解决方案是在内存中缓存一些数据，等缓存到一定量后，将各个列的数据放在一起打包，这样各个包就可以按一定顺序写到一个文件中。这就是列式存储的精髓：按列缓存打

最低0.47元/天解锁文章

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Parquet 学习笔记

背景2010年 google 发表了一篇论文《Dremel: Interactive Analysis of Web-Scale Datasets》，介绍了其 Dermel 系统是如何利用列式存储管理嵌套数据的，嵌套数据就是层次数据，如定义一个班级，班级由同学组成，同学的信息有学号、年龄、身高等。Parquet 是 Dremel 的开源实现，作为一种列式存储文件格式，2015年称为 Apa...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。