RDD、DataFrame和DataSet的异同点

最新推荐文章于 2019-04-25 10:47:56 发布

mumumuyanyanyan

最新推荐文章于 2019-04-25 10:47:56 发布

阅读量378

点赞数

分类专栏： spark 文章标签： RDD DataFrame Spark DataSet SparkSql

本文链接：https://blog.csdn.net/sinat_27634939/article/details/80426656

版权

3 篇文章 0 订阅

订阅专栏

	RDD	DataFrame	DataSet
编译时类型安全	是	否	是
面向对象编程风格	是	否，DataFrame也可以叫做Data[Row]中每一行是Row类型，不解析，里面的字段以及类型不得而知	是
支持sparksql操作	不支持	支持	支持
序列化与反序列化	集群通信以及io都需要对对象以及数据进行序列化与反序列化	由于每个Row的结构是一样的，引入schema，存储数据结构，通信与io都只要对数据进行序列化与反序列化	DataSet以Catalyst逻辑执行计划表示，并且数据以编码的二进制形式被存储，不需要反序列化就可以执行sorting、shuffle等操作

GC性能开销	频繁的创建和销毁对象, 势必会增加GC	增加了off-heap，意味着JVM堆以外的内存, 这些内存直接受操作系统管理（而不是JVM）。Spark能够以二进制的形式序列化数据(不包括结构)到off-heap中，当要操作数据时，就直接操作off-heap内存。由于Spark理解schema，所以知道该如何操作。	同增加off-heap，同时引入Encoder,当序列化数据时，Encoder产生字节码与off-heap进行交互，能够达到按需访问数据的效果，而不用反序列化整个对象。

关注