spark源码--#两个问题

1. spark中的transformation操作做了什么

将旧RDD转化为新RDD ,见RDD最重要的三个属性
那么RDD的操作是如何记录的呢,答案是dependencies,task中调用是RDD的iterator方法
在这里插入图片描述
最终是执行compute方法。对于RDD的iterator方法,以MapPartitionsRDD为例子,在MapPartitionsRDD的构造时,会传入一个匿名函数,该函数的逻辑是,使用第三个参数即迭代器迭代元素并进行map.
在这里插入图片描述
我们可以看到传入的迭代器实际是父RDD使用iterator后的返回值,也就是说会先进行父RDD的iterator操作。
在这里插入图片描述
那么父RDD是如何来的呢,答案是在转换操作时,会使得一个RDD转换为另一个RDD,观察各种RDD的源码,可以看到
在这里插入图片描述
我们再看RDD的构造方法有
在这里插入图片描述
这里建立了一对一的依赖
在这里插入图片描述
对于Dependency类调用rdd方法返回RDD[_],便可以得到他的父RDD了

2. spark中task是如何生成的
   有了1的回答,那么task生成的逻辑其实应该不难想象了,只要有最后那个
   RDD,以及各个task对应不同的分片数据就好了

显然我们直到task肯定是在driver端被构造,然后序列化发送到workers上,然后反序列化然后再执行。先看看task的构造函数,以ShuffleMapTask为例:
在这里插入图片描述
这里面最重要的是taskBinary,它是一个字节数组,由stage对应的rdd与dependencies生成,再看看driver端是怎么生成task对象的:
在这里插入图片描述
在这里插入图片描述
注意这里的taskBinary以广播的形式发送给workers,以避免重复序列化。然后便是worker节点收到task,执行run方法:
在这里插入图片描述
核心逻辑是runtask方法:
在这里插入图片描述
由taskbinary获得对应的rdd与deps,然后调用rdd的iterator方法:
在这里插入图片描述
每个task传入的partition是不同的,这个在DAG构造task时可以看到:
在这里插入图片描述
到这里逻辑便跟完了,每个task对不同的数据分区执行相同的处理逻辑

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值