Spark 的抽象数据集

最新推荐文章于 2024-05-10 03:12:27 发布

weixin_41590010

最新推荐文章于 2024-05-10 03:12:27 发布

阅读量452

点赞数 2

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41590010/article/details/99173640

版权

spark的抽象数据集包括RDD、DataFrame、Dataset,其实就是三种API，理一下这几个东西的异同，适用场景。

RDD

首先RDD是spark最早提供给开发者的一种API，RDD即 Resilient Distributed Datase 弹性分布式数据集，意味着RDD的数据是分布在不同的机器上的，一台机器即一个分区。

通过map等算子，可以在每台机器上对数据做相同的操作；通过reduce等算子，可以将不同机器上的数据重新洗牌进行一个聚合，这个过程叫做shuffle，其间会发生机器之间数据传输，所以是比较消耗资源的；还有可以通过collect等算子将数据拉到driver端，driver端即提交任务的机器，所以有collect算子时是要注意driver端内存分配的。

另外，需要知道的是RDD是不可变的，我们对rdd操作的算子不是修改rdd的数据，而是把一个RDD转化为另一个RDD。

DataFrame

DataFrame和RDD其实是类似的东西，不同的是DataFrame支持SparkSQL，这就意味着DataFrame里面的是结构化数据，但是DataFrame的字段类型约束不是严格的，它每一行的类型为row，所以每一列的值无法直接访问，还需要解析，来看下面两个例子：

1.row对象可以直接通过getA

最低0.47元/天解锁文章

weixin_41590010

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark 的抽象数据集

spark的抽象数据集包括RDD、DataFrame、Dataset,其实就是三种API，理一下这几个东西的异同，适用场景。RDD首先RDD是spark最早提供给开发者的一种API，RDD即 Resilient Distributed Datase 弹性分布式数据集，意味着RDD的数据是分布在不同的机器上的，一台机器即一个分区。通过map等算子，可以在每台机器上对数据做相同的操作；通过...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。