列式存储

最新推荐文章于 2024-04-25 12:31:00 发布

acethan

最新推荐文章于 2024-04-25 12:31:00 发布

阅读量1.2k

点赞数

分类专栏：大数据之ETL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/acethan/article/details/116041749

版权

大数据之ETL 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

OLAP中数据存储的问题

OLAP 需要队列进行选择，行式存储按行存数据，使用索引加快对数据的查找（索引包括聚集索引（表记录的排列顺序与索引的排列顺序一致）和非聚簇索引（非聚集索引指定了表中记录的逻辑顺序，但记录的物理顺序和索引的顺序不一致））。这种方式对按列的存储和检索不是很高效，查询某一列数据需要将所有行的数据扫描一次，而且对统计分析也不友好。

列式存储原理

若使用列式存储可以只用扫描出需要的列，行、列存储的对比。
在这里插入图片描述

文件格式

parquet 文件格式：

如下图所示：parquet file = header + block * N + footer

在这里插入图片描述

header ：

block ：

转换成层次图如下
在这里插入图片描述
其中

行组(Row Group)：按照行将数据物理上划分为多个单元，每一个行组包含一定的行数，在一个HDFS文件中至少存储一个行组，Parquet读写的时候会将整个行组缓存在内存中，所以如果每一个行组的大小是由内存大的小决定的。

列块(Column Chunk)：在一个行组中每一列保存在一个列块中，行组中的所有列连续的存储在这个行组文件中。不同的列块可能使用不同的算法进行压缩。

页(Page)：每一个列块划分为多个页，一个页是最小的编码的单位，在同一个列块的不同页可能使用不同的编码方式。

footer：

文件中所有的metadata都存在于footer中。footer中的metadata包含了格式的

版本信息
schema信息
key-value paris
所有block中的metadata信息。

footer中最后两个字段为一个以4个字节长度的footer的metadata,以及同header中包含的一样的PAR1。

字典页

在Parquet中，有三种类型的页：数据页、字典页和索引页。数据页用于存储当前行组中该列的值，字典页存储该列值的编码字典，每一个列块中最多包含一个字典页，索引页用来存储当前行组下该列的索引，目前Parquet中还不支持索引页，但是在后面的版本中增加。通过字典页可以压缩数据，原理如下图。http协议也用到了这种数据压缩方式。
在这里插入图片描述

列式存储查询数据

在这里插入图片描述

特点

映射下推
谓词下推

总结

行、列存储对比：

行式存储-优点

Ø 数据被保存在一起
Ø INSERT/UPDATE容易
Ø 查询时只有涉及到的列会被读取

列式存储-优点

Ø 投影(projection)很高效
Ø 任何列都能作为索引

行式存储-缺点

Ø 选择(Selection)时即使只涉及某几列，所有数据也都会被读取

列式存储-缺点

Ø 选择完成时，被选择的列要重新组装
Ø INSERT/UPDATE比较麻烦

参考：

官网：https://parquet.apache.org/
parquet 工具： https://github.com/wesleypeck/parquet-tools
blog：https://mp.weixin.qq.com/s/r0N8LOTmONAgoqFklznhgg

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
列式存储

OLAP中数据存储的问题OLAP 需要队列进行选择，行式存储按行存数据，使用索引加快对数据的查找（索引包括聚集索引（表记录的排列顺序与索引的排列顺序一致）和非聚簇索引（非聚集索引指定了表中记录的逻辑顺序，但记录的物理顺序和索引的顺序不一致））。这种方式对按列的存储和检索不是很高效，查询某一列数据需要将所有行的数据扫描一次，而且对统计分析也不友好。列式存储原理若使用列式存储可以只用扫描出需要的列，行、列存储的对比。文件格式parquet 文件格式：如下图所示：parquet file = hea
复制链接

扫一扫

专栏目录

acethan CSDN认证博客专家 CSDN认证企业博客

码龄4年

32: 原创

72万+: 周排名

128万+: 总排名

7916: 访问

: 等级

335: 积分

0: 粉丝

1: 获赞

5: 评论

10: 收藏

私信

关注

热门文章

分类专栏

最新评论

Spark之SparkStreaming
CSDN-Ada助手: TEEngine 是一个物联网数据库，算是处理大数据的么？
列式存储
不正经的kimol君: 厉害，赞一个,欢迎回赞哦~
Java并发编程
泰山AI: 这写的什么啊你这样的人我不想多说什么，直接一键三连等我水平够了再回来看，留下“牛X”二字
Hadoop基础
泰山AI: 牛蛙牛蛙，以后跟着大佬学习
为什么要用Flink--从需求到应用
泰山AI: 写的好，很nice!欢迎一起交流!

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。