Spark SQL DataFrame DataSet概述

塞上江南o

已于 2023-02-05 20:42:17 修改

阅读量365

点赞数

分类专栏： Spark 文章标签： spark

于 2020-11-09 17:43:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43192537/article/details/109355028

版权

Spark 专栏收录该内容

44 篇文章 3 订阅

订阅专栏

目录

- Spark SQL概述
- - DataFrame
  - DataSet

Spark SQL概述

我们知道Hive SQL，它是将 SQL 转译成 MapReduce 然后提交到集群上执行，但是MapReduce计算模型执行效率比较慢，所以Spark SQL的应运而生，Spark SQL可以简单理解成就是将 SQL 转译成：“RDD + 优化方案” 再执行，而所谓的优化方案就是 Spark 帮我们把RDD 算子进行了封装和优化，并形成了2套编程抽象API，即DataFrame和DataSet，从而大大提高了计算效率

DataFrame

DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格
DataFrame与RDD的主要区别在于，DataFrame带有schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型，这使得Spark SQL得以洞察更多的结构信息，从而对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行了针对性的优化，最终达到大幅提升运行时的效率，而反观RDD，由于无从得知所存数据元素的具体内部结构，Spark Core只能在stage层面进行简单、通用的流水线优化。同时， 与Hive类似，DataFrame也支持嵌套数据类型（struct、array和map） ，从 API 易用性的角度上看，DataFrame API提供的是一套高层的关系操作，比函数式的RDD API 要更加友好，门槛更低

DataSet

（1） DataSet是DataFrame的一个扩展。它提供了RDD的优点（即强类型，使用强大的lambda函数的能力）以及Spark SQL优化后的执行引擎的优点。Dataset 可以从JVM中构造对象，然后使用算子（例如map， flatMap，filter等）去操作转换

（2）DataSet是强类型的。比如可以有DataSet[Car]，DataSet[Person]

（3）DataFrame是DataSet的特例，DataFrame=DataSet[Row] ，所以DataFrame可以通过as方法转换为DataSet。Row是一个类型，跟Car、Person这些的类型一样，所有的表结构信息都用Row来表示

（4）用样例类来定义DataSet中数据的结构信息，样例类中每个属性的名称直接映射到DataSet中的字段名称

在这里插入图片描述

总结：简单来说RDD中存放数据，DataFrame中既存放数据也存放数据类型，DataSet将DataFrame抽象成了类

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Spark SQL DataFrame DataSet概述

Spark SQL DataFrame DataSet概述
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。