Parquet 嵌套学习笔记

目录

 

一. parquet 嵌套列表示

二. Definition levels && Repetition levels

2.1 定义

2.2 例子

2.3 生成具有 repetition levels 和 definition levels 的 column strips

三. 参考



一. parquet 嵌套列表示

为了编码嵌套列,parquet 使用 group, repeated 来表示一个类似于 struct 和 list 的概念。

比如这个 Document 的定义了一个嵌套列。

其中

  • required 代表这个字段是必须的。
  • optional 代表这个字段是可选的。
  • repeated 代表可以重复。

二. Definition levels && Repetition levels

2.1 定义

为了编码嵌套列,parquet 使用 dremel 通过 definition levels 和 repetition levels 来实现。

  • Repetition levels: specify at what repeated field in the path has the value repeated. 
  • Definition levels: specify how many optional fields in the path for the column are defined.

比如 a.b.c 字段

  • 字段 path 就是 a.b.c
  • Repetition levels 用来表示字段 path 中那个部分是重复的。如果在 a 上已经重复了,那么 level = 1;b 上 level = 2, c 上 level = 3.
  • Definition levels 用来看看字段 path 中多少可选字段部分(包括 optional 和 repeated)是定义的,求个和。
  • 有了repeated level 我们就可以构造出一个记录了,为什么还需要definition levels呢?由于repeated和optional 类型的存在,可能一条记录中某一列是没有值的,假设我们不记录这样的值就会导致本该属于下一条记录的值被当做当前记录的一部分,从而造成数据的错误,因此对于这种情况需要一个占位符标示这种情况。如果value是null,而rl,dl会存,导致下面的值错位上来了。
     

2.2 例子

参考 《Dremel: Interactive Analysis of Web-Scale Datasets》论文里面的例子:

其中 r 代表 repetition levels:

来看 Name.Language.Code 的 repetition levels。对未定义字段进行补 NULL。

  • en-us 0: Name.Language.Code 中没有一部分是重复了,所以为 0.
  • en 2: Name.Language.Code 中 Language 重复了,是路径的第 2 个层,所以为 2.
  • NULL 1: Name.Language.Code 中 Name 重复了,是路径的第 1 个层,所以为 1.
  • en-gb 1: Name.Language.Code 中 Name 重复了,是路径的第 1 个层,所以为 1.
  • NULL 1: Name.Language.Code 没有一部分重复了,所以为 0.

来看 Name.Language.Country 的 repetition levels。对未定义字段进行补 NULL。

  • us 0: Name.Language.Country 中没有一部分是重复了,所以为 0.
  • NULL 2: Name.Language.Country 中 Language 重复了,是路径的第 2 个层,所以为
  • NULL 1: Name.Language.Country 中 Name 重复了,是路径的第 1 个层,所以为 1.
  • gb 1: Name.Language.Country 中 Name 重复了,是路径的第 1 个层,所以为 1.
  • NULL 0: Name.Language.Code 中没有一部分重复了,所以为 0.

其中 d 代表 definition levels。

来看 Name.Language.Code 的 definition levels。对未定义字段进行补 NULL。Name Language Code 中 Name 和 Language 都是可选字段(能出现 0 次,optional 和 repeated),Code 是 required 字段。

  • en-us 2: Name.Language.Code 中 Name,Language 都出现了,所以为 2.
  • en 2: Name.Language.Code 中 Name,Language 都出现了,所以为 2.
  • NULL 1: Name.Language.Code 中 只有 Name 出现了,所以为 1.
  • en-gb 2: Name.Language.Code 中 Name,Language 都出现了,所以为 2.
  • NULL 1: Name.Language.Code 中 只有Name 出现了,所以为 1.

来看 Name.Language.Country 的 definition levels。对未定义字段进行补 NULL。Name Language Country 中 Name, Language, Country都是可选字段(能出现 0 次,optional 和 repeated),Country 是 required 字段。

  • us 3: Name.Language.Country 中 Name,Language, Country 都出现了,所以为 3.
  • NULL 2: Name.Language.Code 中 Name,Language 都出现了,所以为 2.
  • NULL 1: Name.Language.Code 中 只有 Name 出现了,所以为 1.
  • gb 3: Name.Language.Code 中 Name,Language, Country 都出现了,所以为 3.
  • NULL 1: Name.Language.Code 中 只有Name 出现了,所以为 1.

2.3 生成具有 repetition levels 和 definition levels 的 column strips

可以参考下面文章中的例子。

https://blog.twitter.com/engineering/en_us/a/2013/dremel-made-simple-with-parquet

如何通过图中右边的R,D,Value构建出记录。

这边我就不翻译了,因为感觉翻译了可能还不如保留原文的效果好。

column: contacts.phoneNumber

To reconstruct the records from the column, we iterate through the column: 

● R=0, D=2, Value = “555 987 6543”:
  ○ R = 0 means a new record. We recreate the nested records from the root until the definition level (here 2)
  ○ D = 2 which is the maximum. The value is defined and is inserted.
● R=1, D=1:
  ○ R = 1 means a new entry in the contacts list at level 1.
  ○ D = 1 means contacts is defined but not phoneNumber, so we just create an empty contacts.
● R=0, D=0:
  ○ R = 0 means a new record. we create the nested records from the root until the definition level.
  ○ D = 0 => contacts is actually null, so we only have an empty AddressBook.

三. 参考

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: Spark SQL是Apache Spark中的一个模块,它提供了一种基于结构化数据的编程接口。Spark SQL可以让用户使用SQL语句来查询数据,也可以让用户使用DataFrame API来进行数据处理和分析。Spark SQL支持多种数据源,包括Hive、JSON、Parquet等。Spark SQL还提供了一些高级功能,如支持用户自定义函数、支持分布式机器学习算法等。Spark SQL的目标是让用户能够方便地使用Spark进行数据处理和分析,同时提供高性能和可扩展性。 ### 回答2: Spark SQL是一个基于Spark平台的关系型数据处理引擎,它支持使用SQL语句和数据框架操作数据,可以轻松处理结构化和半结构化的数据。它可以从多个数据源中读取数据,包括Hive、JSON、Parquet、ORC等。通过Spark SQL,用户可以方便地使用SQL查询语言来分析和处理数据,大大降低了开发和组织数据流的难度。 Spark SQL主要有两种执行模式:SQL查询和DataFrame操作。其中SQL查询基于Hive的SQL语法解析器,支持HiveQL中的大多数语言特性(如UDF、窗口函数等)。在执行计划生成时,Spark SQL采用了Spark的计算引擎,支持各种Spark算子的优化,以便最大程度地提高查询性能。 另一种操作模式是使用DataFrame API,它可以灵活地进行数据转换和处理,并提供了类似于SQL的语法。与SQL查询不同,DataFrame API通过静态检查和编译器优化来避免由SQL查询引起的语法错误和潜在性能问题。 除了这两种基本的操作模式外,Spark SQL还提供了一些高级特性,如嵌套查询、表和视图、共享变量等。这些特性扩展了Spark SQL的功能,使得它可以更加灵活地进行数据处理和查询。 Spark SQL是Spark的重要组成部分,它在数据存储和处理方面提供了很多便利。通过最大程度地利用Spark引擎的优势,Spark SQL能够处理海量数据,并将其转换为有用的信息。这使得Spark SQL成为实现数据分析、机器学习和人工智能的重要工具之一。 ### 回答3: Spark SQL是一种基于Spark平台的数据处理引擎,它提供了高度优化的查询引擎和优秀的支持SQL语句的API。它允许用户使用SQL语句查询来处理大规模数据集,同时仍然支持复杂数据类型和计算。Spark SQL支持数据源,包括Parquet,Avro,JSON等一系列结构化的和半结构化的数据源。 Spark SQL在历史上是一个单独的模块,在Spark 2.0之后,它已经成为Spark的核心组件之一,可以直接在Spark核心API中使用,包括作为一个RDD库或DataFrame/DataSet的API。 Spark SQL的优点如下: 1. 它可以向受过传统SQL培训的用户展示更高级别,更强大的API。 2. 它提供数据集和RDD的良好互操作性。Spark SQL可以通过未被优化的RDD/DataSet API访问同一数据。 3. 它支持Spark的执行引擎以加速查询处理。 使用Spark SQL的时候,可以根据需要选择编程语言,如Scala,Java,Python,SQL等。在Spark核心API中,Spark SQL提供了两种API来处理结构化数据: 1. DataFrame API:DataFrame是具有许多操纵数据的功能的分布式数据集,类似于数据库中的表。 2. Dataset API:Dataset是Scala和Java API,它是类型安全的,并且提供与RDD API相同的API,但比RDD具有更好的性能和可读性。 Spark SQL是Spark生态系统中重要的组成部分之一。在处理大规模数据时,使用Spark SQL可以方便地利用Spark的强大功能,提高处理效率。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值