大数据IMF传奇行动绝密课程第65课:Spark SQL下Parquet深入进阶

Spark SQL下Parquet深入进阶

1、Spark SQL下的Parquet序列化
2、Spark SQL下的Parquet源码解读
3、Spark SQL下Parquet总结

Parquet中Block、File、ColumnChunk
将数据按列存储时,每一列的数据会被分成多个列块。
存储时有一个逻辑级别的概念RowGroup(行组)。每一列的列块组合起来就是RowGroup。RowGroup以Page方式存储。每一个列块会被分成很多Page。Page是压缩和编码的最小单位。
每一个Parquet最少包含一个RowGroup,而一个RowGroup一般会包含多个ColumnChunk(列块),每个列仅对应一个列块,一个列块包含一个或多个Page。结果上,一个Block等同于一个RowGroup。
Parquet包含的元数据:File、RowGroup、ColumnChunk的元数据。
从使用接口的角度来看Spark SQL Parquet

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值