SparkSQL RDD,DataFrame,DataSet三者的区别与联系

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅

https://www.jianshu.com/p/c3b262349226

1.RDD

优点

        1.1 编译时类型安全;

        1.2 编译时就能检查出类型错误;

        1. 3 面向对象的编程风格;

        1.4 直接通过类名点的方式来操作数据
缺点

        1.1序列化和反序列化的性能开销;

        1.2无论是集群间的通信,还是IO操作都需要对对象的结构和数据进行序列化和反序列化;

        1.3GC的性能开销,频繁的创建和销毁对象,势必会增加GC

2.DataFrame

DataFrame引入了schema和off-heap
schema:RDD每一行的数据结构都是一样的,这个结构就存储在schema中,spark通过schema就能够读懂数据,因此在通信和IO时就只需要序列化和反序列化数据,而结构的部分就可以省略了。
off-heap:意味着JVM堆以外的内存,这些内存直接受操作系统管理(而不是JVM)。spark能够以二进制的形式序列化数据到off-heap中,当要操作数据时,就直接操作off-heap内存。由于spark理解schema,所以知道该如何操作。
off-heap就像底盘,schema就像地图,spark有地图又有底盘,就可以自己说了算了,不再受JVM的限制,也就不再受GC的困扰了。
通过schema和off-heap,DataFrame解决了RDD的缺点,却丢了RDD的有点,DataFrame不是类型安全的,API也不是面向对象风格的。


3.Dataset

Dataset结合了RDD和DataFrame的优点,并带来一个新的概念Encoder。
当序列化数据时,Encoder产生字节码与off-heap进行交互,能够达到按需访问数据的效果,而不用反序列化整个对象。spark还没有提供自定义Encoder的API,未来会加入。


4.RDD和Dataset

Dataset以Catalyst逻辑执行计划表示,并且数据以编码的二进制形式被存储,不需要反序列化就可以执行sorting、shuffle等操作。
Dataset创立需要一个显式的Encoder,把对象序列化为二进制,可以把对象的schema映射为sparkSQL类型,然而RDD依赖于运行时反射机制。
Dataset比RDD性能要好很多。


5.DataFrame和Dataset

Dataset可以认为是DataFrame的一个特例,主要区别是Dataset每一个record存储的是一个强类型而不是一个Row,因此具有如下三个特点:
               5.1 Dataset可以在编译时检查类型
               5.2 Dataset是面向对象的编程接口
               5.3 后面版本DataFrame会继承DataSet,DataFrame是面向Spark SQL的接口。
DataFrame和Dataset可以相互转化,df.as[ElementType]这样可以把DataFrame转化为Dataset,ds.toDF()这样可以把Dataset转化为DataFrame.

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值