spark-dataset

最新推荐文章于 2023-12-07 15:42:27 发布

猿与禅

最新推荐文章于 2023-12-07 15:42:27 发布

阅读量384

点赞数

分类专栏： spark 文章标签： spark dataset

spark 专栏收录该内容

51 篇文章 1 订阅

订阅专栏

一个强类型的对象集合，可以并行地进行转换。
*使用函数或关系操作。
不同于[ [RDD] ]在以下方面：
*在内部，由催化剂逻辑计划表示，数据存储。
*以编码形式。此表示允许额外的逻辑操作和
*使许多操作（排序，洗牌，等）进行反序列化到无对象。
*创建一个]需要一个显式的[可以][数据集
*用于序列化的对象转换为二进制格式。
编码器也能够映射
*给定对象到星火SQL类型系统的模式。

与此相反，RDDS依靠运行
*基于反射的序列化。更改存储在该对象中的对象类型的操作数据集还需要一个新类型的编码器。

可以认为是一个专门的数据框，其中元素映射到一个特定的
* JVM对象类型，而不是一般的[行]容器。
*
*兼容性注意：长期我们计划让[ ] [ ]扩展数据帧[行]。然而,
*对类层次结构进行这种更改将破坏现有的函数签名。
*功能操作（图，flatmap，等）

本质上，数据集表示一个逻辑计划，该计划描述了产生数据所需的计算。当执行行动操作时，Spark的查询优化程序优化逻辑计划，并生成一个高效的并行和分布式物理计划。

dataset是一个强类型的域特定对象的集合，可以使用功能或关系操作并行转换.。
每个数据集还有一个无类型的视图称为Dataframe，这是一个行(Row)的数据集。

在内部实现，dataset表示的是一个逻辑计划，它描述了生成数据所需的计算。
当action被调用时，spark的查询优化器会优化这个逻辑计划，并生成一个物理计划，
该物理计划可以通过并行和分布式的方式来执行。使用explain解释函数，来进行逻辑计划的探索和物理计划的优化。

为了有效地支持特定领域的对象，Encoder（编码器）是必需的。例如，给出一个Person的类，有两个字段：name(string)和age(int)，通过一个encoder来告诉spark在运行的时候产生代码把Person对象转换成一个二进制结构。这种二进制结构通常有更低的内存占用，以及优化的数据处理效率（例如在一个柱状格式）。若要了解数据的内部二进制表示，请使用schema(表结构)函数。

数据集(Dataset)的操作是无类型的，通过各种DSL(domain-specific-language)函数，这些函数是基于数据集Dataset , 类[[Column]],和函数[[functions]]来定义的

以Catalyst逻辑执行计划表示，并且数据以编码的二进制形式被存储，不需要反序列化就可以执行sorting、shuffle等操作。
DataSet创立需要一个显式的Encoder，
把对象序列化为二进制，可以把对象的scheme映射为SparkSQl类型

猿与禅

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark-dataset

一个强类型的对象集合，可以并行地进行转换。 *使用函数或关系操作。不同于[ [RDD] ]在以下方面： *在内部，由催化剂逻辑计划表示，数据存储。 *以编码形式。此表示允许额外的逻辑操作和 *使许多操作（排序，洗牌，等）进行反序列化到无对象。 *创建一个]需要一个显式的[可以][数据集 *用于序列化的对象转换为二进制格式。编码器也能够映射 *给定对象到星火SQL类型系统的模式。
复制链接

扫一扫

专栏目录