spark 三者中数据集的关系

最新推荐文章于 2022-05-04 11:14:41 发布

weixin_38168081

最新推荐文章于 2022-05-04 11:14:41 发布

阅读量113

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/wqbin/p/11285955.html

版权

Catalyst Optimizer:

Dataset

数据集仅可用Scala或Java。但是，我们提供了以下上下文来更好地理解Spark 2.0的方向数据集是在2015年作为Apache Spark 1.6版本的一部分引入的。datasets的目标是提供一个类型安全的编程接口。

这允许开发人员使用具有编译时类型安全性的半结构化数据(如JSON或键值对)进行工作(也就是说，生产应用程序在运行之前可以检查错误)。

Python不实现Dataset API的部分原因是Python不是一种类型安全的语言。同样重要的是，数据集API包含高级领域特定的语言操作，如sum()、avg()、join()和group()。

后一个特性意味着您具有传统Spark RDDs的灵活性，但是代码也更容易表达、读取和编写。

从下图中可以看出，DataFrame和Dataset都属于作为Apache Spark的一部分引入的新Dataset API2.0:

DataFrame和Dataset api的统一有可能创建打破向后兼容性的更改。

从下图中可以看出，DataFrame和Dataset都属于作为Apache Spark的一部分引入的新Dataset API2.0:DataFrame和Dataset api的统一有可能创建打破向后兼容性的更改。

这是Apache Spark 2.0成为主要版本的主要原因之一(最小化任何中断的更改)。从下图中可以看出，DataFrame和Dataset都属于作为Apache Spark的一部分引入的新Dataset API2.0:

如前所述，Dataset API提供了一个类型安全的、面向对象的编程接口。数据集可以通过将表达式和数据字段公开给查询接口和

的快速内存编码来利用。但是，随着DataFrame和Dataset现在作为Apache Spark 2.0的一部分统一起来，DataFrame现在是Dataset非类型化API的别名。

更具体地说:

DataFrame = Dataset[T]

转载于:https://www.cnblogs.com/wqbin/p/11285955.html

weixin_38168081

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。