Spark编程基础(Python版)之RDD

最新推荐文章于 2022-05-03 11:49:02 发布

v_w50

最新推荐文章于 2022-05-03 11:49:02 发布

阅读量2.2k

点赞数

分类专栏： spark 文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_56477059/article/details/123590112

版权

spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在mapreduce框架执行时，会将中间结果写入到稳定存储（磁盘）中，会造成大量的数据复制、磁盘io、序列化开销。RDD提供一个抽象的数据构架，需要将具体的应用逻辑表达为一系列转换处理。

不同的RDD之间的转换形成依赖关系，可以实现管道化，避免中间数据存储。

一、什么是RDD

分布式对象集合，本质上是一个只读的分区记录集合，每个RDD可以分成多个分区，每个分区就是一个数据集片段，并且一个RDD的不同分区可以被保存到集群中不同的节点上，可以在不同节点上进行并行计算。

二、RDD高度受限的共享内模型

只读的记录分区集合，不能直接修改，只能基于稳定的物理存储中的数据集创建RDD，或者通过其他RDD执行确定转换的操作形成新的RDD.

三、数据运算

action（动作）、transformation（转换）

四、优缺点

1、高效的容错性

2、中间结果持久化到内存，数据在内存中的多个RDD操作之间进行传递，避免不必要的读写磁盘开销

3、存放的数据可以是Java对象，避免不必要对象序列化和反序列化。

五、shuffle

是否包含shuffle操作区分窄依赖和宽依赖的根据

1、窄依赖表现为一个父RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区

2、宽依赖则表现为存在一个父RDD的一个分区对应一个子RDD的多个分区

窄依赖可以实现“流水线”优化

宽依赖包含Shuffle过程，无法实现“流水线”优化：

每个RDD 操作都是一个fork/join（一种用于并行执行任务的框架），把计算fork 到每个RDD 分区，完成计算后对各个分区得到的结果进行join 操作，然后fork/join下一个RDD 操作

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark编程基础(Python版)之RDD

在mapreduce框架执行时，会将中间结果写入到稳定存储（磁盘）中，会造成大量的数据复制、磁盘io、序列化开销。RDD提供一个抽象的数据构架，需要将具体的应用逻辑表达为一系列转换处理。不同的RDD之间的转换形成依赖关系，可以实现管道化，避免中间数据存储。一、什么是RDD分布式对象集合，本质上是一个只读的分区记录集合，每个RDD可以分成多个分区，每个分区就是一个数据集片段，并且一个RDD的不同分区可以被保存到集群中不同的节点上，可以在不同节...
复制链接

扫一扫

专栏目录

v_w50 CSDN认证博客专家 CSDN认证企业博客

码龄3年

20: 原创

14万+: 周排名

5万+: 总排名

3万+: 访问

: 等级

359: 积分

23: 粉丝

49: 获赞

4: 评论

161: 收藏

私信

关注

热门文章

分类专栏

最新评论

我爱MySQL系列——函数
普通网友: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
我爱MySQL系列——函数
普通网友: 干货满满，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
我爱MySQL系列——函数
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

v_w50 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。