Spark笔记四之RDD处理过程

最新推荐文章于 2022-07-19 17:55:17 发布

臭小优

最新推荐文章于 2022-07-19 17:55:17 发布

阅读量1.9k

点赞数

分类专栏： Spark 文章标签： spark 任务调度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ty4315/article/details/71104651

版权

本文详细介绍了Spark的任务调度过程，包括RDD对象的准备、DAG调度、TaskScheduler分配和Worker执行。同时，深入探讨了Task的执行过程，包括shuffleMapTask和resultTask的区别。此外，还讲解了Spark的缓存策略，如MEMORY_ONLY和checkpoint检查点的使用，以及它们在数据持久化中的作用。

摘要由CSDN通过智能技术生成

Spark任务调度

Spark的任务调度分为四步

1RDD objects

RDD的准备阶段，组织RDD及RDD的依赖关系生成大概的RDD的DAG图，DAG图是有向环图。

2DAG scheduler

细分RDD中partition的依赖关系确定那些是宽依赖那些是窄依赖，生成更详细的DAG图，将DAG图封装成 TaskSet任务集合当触发计算时(执行action型算子)将其提交给集群。

3TaskScheduler

接收TaskSet任务集，分析确定那个task对应那个worker并将其发送给worker执行。

4worker执行阶段

接收task任务，通过spark的block管理器blockManager从集群节点上获取对应的block上的数据，启动executor完成计算。

Task执行过程

1.执行action型算子时将task发给对应的worker然后worker启动executor执行计算。

2.executor获取运行环境调用task类的run方法执行计算。

Task类是一个抽象类，类中的run方法调用了一个runTask的抽象方法。

3.执行任务时task任务分为两种，shuffleMapTask和resultTask。

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。