spark-dataset

一个强类型的对象集合,可以并行地进行转换。
*使用函数或关系操作。
不同于[ [RDD] ]在以下方面:
*在内部,由催化剂逻辑计划表示,数据存储。
*以编码形式。此表示允许额外的逻辑操作和
*使许多操作(排序,洗牌,等)进行反序列化到无对象。
*创建一个]需要一个显式的[可以][数据集
*用于序列化的对象转换为二进制格式。
编码器也能够映射
*给定对象到星火SQL类型系统的模式。

与此相反,RDDS依靠运行
*基于反射的序列化。更改存储在该对象中的对象类型的操作数据集还需要一个新类型的编码器。

可以认为是一个专门的数据框,其中元素映射到一个特定的
* JVM对象类型,而不是一般的[行]容器。
*
*兼容性注意:长期我们计划让[ ] [ ]扩展数据帧[行]。然而,
*对类层次结构进行这种更改将破坏现有的函数签名。
*功能操作(图,flatmap,等)

本质上,数据集表示一个逻辑计划,该计划描述了产生数据所需的计算。当执行行动操作时,Spark的查询优化程序优化逻辑计划,并生成一个高效的并行和分布式物理计划。

dataset是一个强类型的域特定对象的集合,可以使用功能或关系操作并行转换.。
每个数据集还有一个无类型的视图称为Dataframe,这是一个行(Row)的数据集。

在内部实现,dataset表示的是一个逻辑计划,它描述了生成数据所需的计算。
当action被调用时,spark的查询优化器会优化这个逻辑计划,并生成一个物理计划,
该物理计划可以通过并行和分布式的方式来执行。使用explain解释函数,来进行逻辑计划的探索和物理计划的优化。

为了有效地支持特定领域的对象,Encoder(编码器)是必需的。例如,给出一个Person的类,有两个字段:name(string)和age(int),通过一个encoder来告诉spark在运行的时候产生代码把Person对象转换成一个二进制结构。这种二进制结构通常有更低的内存占用,以及优化的数据处理效率(例如在一个柱状格式)。若要了解数据的内部二进制表示,请使用schema(表结构)函数。

数据集(Dataset)的操作是无类型的,通过各种DSL(domain-specific-language)函数,这些函数是基于数据集Dataset , 类[[Column]],和 函数[[functions]]来定义的

以Catalyst逻辑执行计划表示,并且数据以编码的二进制形式被存储,不需要反序列化就可以执行sorting、shuffle等操作。
DataSet创立需要一个显式的Encoder,
把对象序列化为二进制,可以把对象的scheme映射为SparkSQl类型

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值