Spark核心API发展史：RDD、DataFrame、DataSet

最新推荐文章于 2024-10-31 18:40:52 发布

bingo_liu

最新推荐文章于 2024-10-31 18:40:52 发布

阅读量490

点赞数

分类专栏： spark 文章标签： spark api dataset

spark 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

Spark第一代api：RDD

RDD:五大核心特征：
* - A list of partitions
* - A function for computing each split
* - A list of dependencies on other RDDs
* - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
* - Optionally, a list of preferred locations to compute each split on (e.g. block locations for
* an HDFS file)

Spark第二代API：DataFrame

DataFrame核心特征：
包含了已ROW为单位的每行数据的列的信息，此时DataFrame就是Table； Tungsten:新的执行引擎
*Catalyst：新的语法解析框架
提升计算效率、减少数据读取、底层计算优化；

Spark第三代API：DataSet

DataSet的核心价值和好处：Encoder
编译时的类型安全检查，不需要在执行时期才发现类型不匹配；性能极大的提升
内存使用极大降低、减少GC… 极大的减少网络数据的传输…
*极大的减少采用scala和java变成代码的差异性…

补充：
1、DataSet会同时可以兼顾Functional和Relational Programming;
2、DataSet可以统一流计算、SQL、ML等的API编程；
3、DataSet最最重要的是效率；底层Tungsten的优化、Encoder、数据在内存和磁盘的存储等等；

转自简书

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。