Parquet存储格式和Snappy压缩方式

大大大大肉包

已于 2022-09-10 13:26:49 修改

阅读量3.1k

点赞数

分类专栏：优化文章标签： hadoop 大数据 big data

于 2022-05-28 20:28:58 首次发布

本文链接：https://blog.csdn.net/qq_42456324/article/details/125012195

版权

优化专栏收录该内容

1 篇文章

订阅专栏

1、Parquet存储格式

1.1、Parquet介绍

Apache Parquet 是由 Twitter 和 Cloudera 最先发起并合作开发的列存储项目。Parquet 的设计与计算框架、数据模型以及编程语言无关，可以与任意项目集成，因此应用广泛。目前已经是 Hadoop 大数据生态圈列式存储的事实标准。

1.2、原理

有这么三行数据

在面向行的存储中，每列的数据依次排成一行，如下所示：

而在面向列的存储中，相同列的数据存储在一起：

显而易见，行存适用于数据整行读取场景，而列存适用于只读取部分列数据（如统计分析等）场景。

1.3、优点

（1）列裁剪（offset of first data page -> 列的起始结束位置）

Parquet列式存储方式可以方便地在读取数据到内存之间找到真正需要的列，具体是并行的task对应一个Parquet的行组（row group），每一个task内部有多个列块，列快连续存储，同一列的数据存储在一起，任务中先去访问footer的File metadata，其中包括每个行组的metadata，里面的Column Metadata记录offset of first data page和offset of first index page，这个记录了每个不同列的起始位置，这样就找到了需要的列的开始和结束位置。其中data和index是对数值和字符串数据的处理方式，对于字符变量会存储为key/value对的字典转化为数值。