Spark-RDD的五大特性

新手小农

已于 2023-10-13 22:10:53 修改

阅读量416

点赞数

分类专栏： Spark 3.1.3 文章标签： spark 大数据分布式

于 2023-10-10 19:58:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_62078954/article/details/133754202

版权

Spark 3.1.3 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

RDD：弹性分布式数据集，可以看成scala中的集合，实际上是spark中的统一编程模型，RDD是不存储数据的，当需要数据时，去数据源拉取数据

1、RDD是由一系列的分区组成

第一个RDD的分区的个数是由文件的切片的个数所决定的

2、每一个Task是作用在每一个分区上面

3、RDD之间是存在依赖关系的

shuffle默认也是采用HashParttition这种分区方式

shuffle过程中肯定会有网络传输，所以就会涉及序列化和反序列化的过程，上游产生的数据就会进行落地。

依赖关系可以通过有无shuffle分为宽窄依赖两种：

存在shuffle的被称为宽依赖

不存在shuffle的被称为窄依赖

如何判断宽窄依赖：

站在父RDD的角度，如果父RDD每一个分区与子RDD每一个分区之间是一一对应的关系，那么父RDD与子RDD之间就是窄依赖，如果父RDD每一个分区与子RDD每一个分区之间是一对多的对应关系，那么父RDD与子RDD之间就是宽依赖

然后在根据宽窄依赖又可以划分出不同的Stage

Stage指的是一组可以并行计算的Task，会在shuffle阶段分成不同的Stage。

4、分区类算子只能作用在KV形式的RDD上

5、Spark会给每一个Task尽可能的提供最佳的计算位置，移动计算不移动数据

假设数据是存储在node1上的Datanode，然而Task任务是在Executor上启动的，然而 Exector是在Container（假设时yarn的模式）上启动，然而是由yarn中的NodeManager分配的资源，假设此时的NodeManager是node2上，此时运行就需要将数据传输到node2上，但是RDD来说，就会将Task任务分配到node1上，速度会比较前一种较快，这就是移动任务不移动数据

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄3年

92
原创

251
点赞

222
收藏

198
粉丝

关注

私信

热门文章

分类专栏

最新评论

Java-day01--基础知识
CSDN-Ada助手: 不知道 Java 技能树是否可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
大数据面试专题 -- kafka
普通网友: 写的真好！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
python -- 容器
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Spark Core----Spark常用算子
简单简单小白: 讲解的很详细，很有参考价值
Scala使用的基本语法
CSDN-Ada助手: 恭喜你开始了博客创作！学习Scala的基本语法是一个很好的起点，希望你可以继续分享更多关于Scala的知识和经验。我建议你可以尝试写一些实际的代码示例，或者分享一些在实际项目中使用Scala的经验，这样可以让读者更加深入地了解这门语言。加油！期待你的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。