SparkSQL RDD,DataFrame,DataSet三者的区别与联系

最新推荐文章于 2022-05-24 12:16:02 发布

Zsigner

最新推荐文章于 2022-05-24 12:16:02 发布

阅读量445

点赞数

分类专栏： Spark 文章标签： Sparksql

原文链接：https://www.jianshu.com/p/c3b262349226

版权

Spark 专栏收录该内容

25 篇文章 0 订阅

订阅专栏

推荐大家去看原文博主的文章，条理清晰阅读方便，转载是为了方便以后个人查阅

https://www.jianshu.com/p/c3b262349226

1.RDD

优点：

1.1 编译时类型安全；

1.2 编译时就能检查出类型错误；

1. 3 面向对象的编程风格；

1.4 直接通过类名点的方式来操作数据
缺点：

1.1序列化和反序列化的性能开销；

1.2无论是集群间的通信，还是IO操作都需要对对象的结构和数据进行序列化和反序列化；

1.3GC的性能开销，频繁的创建和销毁对象，势必会增加GC

2.DataFrame

DataFrame引入了schema和off-heap
schema：RDD每一行的数据结构都是一样的，这个结构就存储在schema中，spark通过schema就能够读懂数据，因此在通信和IO时就只需要序列化和反序列化数据，而结构的部分就可以省略了。
off-heap：意味着JVM堆以外的内存，这些内存直接受操作系统管理（而不是JVM）。spark能够以二进制的形式序列化数据到off-heap中，当要操作数据时，就直接操作off-heap内存。由于spark理解schema，所以知道该如何操作。
off-heap就像底盘，schema就像地图，spark有地图又有底盘，就可以自己说了算了，不再受JVM的限制，也就不再受GC的困扰了。
通过schema和off-heap，DataFrame解决了RDD的缺点，却丢了RDD的有点，DataFrame不是类型安全的，API也不是面向对象风格的。

3.Dataset

Dataset结合了RDD和DataFrame的优点，并带来一个新的概念Encoder。
当序列化数据时，Encoder产生字节码与off-heap进行交互，能够达到按需访问数据的效果，而不用反序列化整个对象。spark还没有提供自定义Encoder的API，未来会加入。

4.RDD和Dataset

Dataset以Catalyst逻辑执行计划表示，并且数据以编码的二进制形式被存储，不需要反序列化就可以执行sorting、shuffle等操作。
Dataset创立需要一个显式的Encoder，把对象序列化为二进制，可以把对象的schema映射为sparkSQL类型，然而RDD依赖于运行时反射机制。
Dataset比RDD性能要好很多。

5.DataFrame和Dataset

Dataset可以认为是DataFrame的一个特例，主要区别是Dataset每一个record存储的是一个强类型而不是一个Row，因此具有如下三个特点：
5.1 Dataset可以在编译时检查类型
5.2 Dataset是面向对象的编程接口
5.3 后面版本DataFrame会继承DataSet，DataFrame是面向Spark SQL的接口。
DataFrame和Dataset可以相互转化，df.as[ElementType]这样可以把DataFrame转化为Dataset，ds.toDF()这样可以把Dataset转化为DataFrame.

Zsigner

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SparkSQL RDD,DataFrame,DataSet三者的区别与联系

推荐大家去看原文博主的文章，条理清晰阅读方便，转载是为了方便以后个人查阅https://www.jianshu.com/p/c3b2623492261.RDD优点： 1.1 编译时类型安全； 1.2 编译时就能检查出类型错误； 1. 3 面向对象的编程风格； 1.4 直接通过类名点的方式来操作数据缺点： 1.1序列化和反序列化的性能开销； 1.2无论是集群间的通信，还是IO操作都需要对对象...
复制链接

扫一扫