spark源码--#两个问题

最新推荐文章于 2021-08-11 17:22:27 发布

韩运畅

最新推荐文章于 2021-08-11 17:22:27 发布

阅读量108

点赞数 1

分类专栏： # spark源码

本文链接：https://blog.csdn.net/qq_41634872/article/details/106887539

版权

spark源码专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1. spark中的transformation操作做了什么

将旧RDD转化为新RDD ，见RDD最重要的三个属性
那么RDD的操作是如何记录的呢，答案是dependencies,task中调用是RDD的iterator方法
在这里插入图片描述
最终是执行compute方法。对于RDD的iterator方法，以MapPartitionsRDD为例子，在MapPartitionsRDD的构造时，会传入一个匿名函数，该函数的逻辑是，使用第三个参数即迭代器迭代元素并进行map.

我们可以看到传入的迭代器实际是父RDD使用iterator后的返回值，也就是说会先进行父RDD的iterator操作。
在这里插入图片描述
那么父RDD是如何来的呢，答案是在转换操作时，会使得一个RDD转换为另一个RDD,观察各种RDD的源码，可以看到

我们再看RDD的构造方法有

这里建立了一对一的依赖

对于Dependency类调用rdd方法返回RDD[_],便可以得到他的父RDD了

2. spark中task是如何生成的
   有了1的回答，那么task生成的逻辑其实应该不难想象了，只要有最后那个
   RDD，以及各个task对应不同的分片数据就好了

显然我们直到task肯定是在driver端被构造，然后序列化发送到workers上，然后反序列化然后再执行。先看看task的构造函数，以ShuffleMapTask为例：
在这里插入图片描述
这里面最重要的是taskBinary，它是一个字节数组，由stage对应的rdd与dependencies生成，再看看driver端是怎么生成task对象的：

注意这里的taskBinary以广播的形式发送给workers，以避免重复序列化。然后便是worker节点收到task,执行run方法:
在这里插入图片描述
核心逻辑是runtask方法：

由taskbinary获得对应的rdd与deps,然后调用rdd的iterator方法：

每个task传入的partition是不同的，这个在DAG构造task时可以看到：

到这里逻辑便跟完了，每个task对不同的数据分区执行相同的处理逻辑