Spark大数据分析与实战笔记（第三章 Spark RDD 弹性分布式数据集-05）(2)

最新推荐文章于 2024-07-18 06:28:12 发布

2401_84184729

最新推荐文章于 2024-07-18 06:28:12 发布

阅读量581

点赞数 15

分类专栏：程序员文章标签：大数据面试学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84184729/article/details/138677671

版权

程序员专栏收录该内容

119 篇文章 0 订阅

订阅专栏

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

第3章 Spark RDD弹性分布式数据集
章节概要
- 3.7 Spark的任务调度
  - - 3.7.1 DAG的概念
      - 3.7.2 RDD在Spark中的运行流程
总结

每日一句正能量

成功的速度一定要超过父母老去的速度，努力吧。做事不必与俗同，亦不与俗异；做事不必令人喜，亦不令人憎。若我白发苍苍，容颜迟暮，你会不会，依旧如此，牵我双手，倾世温柔。

第3章 Spark RDD弹性分布式数据集

章节概要

传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操作。Spark中的RDD可以很好的解决这一缺点。

RDD是Spark提供的最重要的抽象概念，我们可以将RDD理解为一个分布式存储在集群中的大型数据集合，不同RDD之间可以通过转换操作形成依赖关系实现管道化，从而避免了中间结果的I/O操作，提高数据处理的速度和性能。接下来，本章将针对RDD进行详细讲解。

3.7 Spark的任务调度

3.7.1 DAG的概念

DAG (Directed Acyclic Graph）叫做有向无环图，Spark中的RDD通过一系列的转换算子操作和行动算子操作形成了一个DAG。DAG是一种非常重要的图论数据结构。如果一个有向图无法从任意顶点出发经过若干条边回到该点，则这个图就是有向无环图。
在这里插入图片描述
从图以看出，4->6->1->2是一条路径，4->6->5也是一条路径，并且图中不存在从顶点经过若干条边后能回到该点。在Spark中，有向无环图的连贯关系被用来表达RDD之间的依赖关系。

根据RDD之间依赖关系的不同可以将DAG划分成不同的Stage(调度阶段)。对于窄依赖来说，RDD分区的转换处理是在一个线程里完成，所以窄依赖会被Spark划分到同一个Stage中;而对于宽依赖来说，由于有Shuffle的存在，所以只能在父RDD处理完成后，下一个Stage才能开始接下来的计算，因此宽依赖是划分Stage的依据，当RDD进行转换操作，遇到宽依赖类型的转换操作时，就划为一个Stage。Stage的具体划分如下图所示。
在这里插入图片描述

A、C、E是三个RDD的实例
当A做groupByKey转换操作生成B时，由于groupByKey转换操作属于宽依赖类型，所以就把A划分为一个Stage，如Stage1；
当C做map转换操作生成D， D与E做union转换操作生成F。由于map和union转换操作都属于窄依赖类型，因此不进行Stage的划分，而是将C、D、E、F加入到同一个Stage中；
当F与B进行join转换操作时，由于这时的join操作是非协同划分，所以属于宽依赖，因此会划分为一个Stage，如Stage2；
剩下的B和G被划分为一个Stage，如Stage3。

3.7.2 RDD在Spark中的运行流程

Spark的任务调度流程，即RDD在Spark中的运行流程分为RDD Objects、DAGScheduler、TaskScheduler以及Worker四个部分。
在这里插入图片描述

RDD Objects：当RDD对象创建后，SparkContext会根据RDD对象构建DAG有向无环图，然后将Task提交给DAGScheduler。
DAGScheduler：将作业的DAG划分成不同Stage，每个Stage都是TaskSet任务集合，并以TaskSet为单位提交给TaskScheduler。
TaskScheduler：通过TaskSetManager管理Task，并通过集群中的资源管理器把Task发给集群中Worker的Executor。
Worker：Spark集群中的Worker接收到Task后，把Task运行在Executor进程中，一个进程中可以有多个线程在工作，从而可以处理多个数据分区。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**

关注

15
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。