干货 | Apache Spark三大API:RDD、DataFrame和Dataset,我该如何选择

关注 iteblog_hadoop 公众号并在【双11福利】文末评论免费送《零起点TensorFlow快速入门》文末评论区留言(认真写评论,增加上榜的机会)。留言点赞数排名前5名的粉丝,各免费赠送一本《零起点TensorFlow快速入门》,活动截止至11月07日18:00。

本PPT来自 Spark summit EUROPE 2017(其他ppt资料正在整理中,请关注本公众号iteblog_hadoop,或https://www.iteblog.com


最令开发者们高兴的事莫过于有一组API,可以大大提高开发者们的工作效率,容易使用、非常直观并且富有表现力。Apache Spark广受开发者们欢迎的一个重要原因也在于它那些非常容易使用的API,可以方便地通过多种语言,如Scala、Java、Python和R等来操作大数据集。


本文将深入讲解 Apache Spark 2.2 以及以上版本提供的三种API:RDD、DataFrame和Dataset,在什么情况下你该选用哪一种以及为什么,并概述它们的性能和优化点,列举那些应该使用DataFrame和Dataset而不是RDD的场景。我会更多地关注DataFrame和Dataset,因为在Apache Spark 2.0中这两种API被整合起来了。


这次整合背后的动机在于我们希望可以让使用Spark变得更简单,方法就是减少你需要掌握的概念的数量,以及提供处理结构化数据的办法。在处理结构化数据时,Spark可以像针对特定领域的语言所提供的能力一样,提供高级抽象和API。


本文PPT下载地址:https://www.iteblog.com/a-tale-of-three-apache-spark-apis-rdds-dataframes-and-datasets-with-jules-damji-iteblog.pdf

http://cdn.iteblog.com/a-tale-of-three-apache-spark-apis-rdds-dataframes-and-datasets-with-jules-damji-iteblog.pdf

点击下面 阅读原文 即可进入。

本次分享的视频如下(由于公众号的限制,只能上传20MB之内的视频,高清视频正在上传中或直接访问:https://www.youtube.com/watch?v=Ofk7G3GD9jk


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值