![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark源码
JKerving
这个作者很懒,什么都没留下…
展开
-
Spark源码系列(五)Spark Submit任务提交
Spark源码系列:Spark Submit任务提交文章目录Spark源码系列:Spark Submit任务提交客户端任务提交源码解析org.apache.spark.deploy.SparkSubmit总结前面几篇文章讲的是DAGScheduler,分析的是spark任务提交后的Stage划分。一开始没有想到按照整体任务提交的流程去写系列源码文章,所以还是写博客经验有所欠缺呀。那么从这篇文章开始我们从Spark任务提交开始,研究Spark内部是如何运行的,Spark任务是如何从开始运行到结束的。Sp原创 2020-07-31 10:55:01 · 859 阅读 · 0 评论 -
Spark源码系列(四) DAGScheduler源码分析与Task最佳位置算法源码
Spark源码系列(四) DAGScheduler源码分析与Task最佳位置算法源码在Spark源码系列(三)中已经说到了DAGScheduler中的stage划分算法。每当执行到RDD的action算子时就会触发runJob方法,代码逻辑最后去调用DAGScheduler的runJob方法,最后会走到DAGScheduler的handleJobSubmitted方法,这个方法内部会根据当前的RDD创建一个ResultStage,然后根据这个ResultStage对象创建一个Job。再将这个Stage对象原创 2020-07-18 15:07:20 · 228 阅读 · 0 评论 -
Spark源码(三)DAGScheduler源码分析
Spark源码(三)DAGScheduler源码分析前面的系列文章提到过定义RDD之后,我们就可以在Action中使用RDD。Action是向应用程序返回值,或向存储系统导出数据的那些操作,例如,count、collect、save。在Spark中,只有在动作第一次使用RDD时,才会计算RDD,也就是延迟计算。这样在构建RDD时,运行时通过管道的方式传输多个转换。一次action算子操作会触发RDD的延迟计算,我们把这样的一次计算称作一个Job。窄依赖和宽依赖的概念我们也讲到过:窄依赖是指每个par原创 2020-07-16 16:06:00 · 320 阅读 · 0 评论 -
Spark ReduceBykey&GroupByKey
ReduceBykey&GroupByKey文章目录ReduceBykey&GroupByKeygroupByKey源码reduceBykey与groupByKey对比groupByKey源码上一篇文章中讲到了reduceBykey的源码。还有个比较常见的算子是groupByKey,源码如下:/** * Group the values for each key in the RDD into a single sequence. Allows controlling the *原创 2020-07-13 16:00:52 · 431 阅读 · 0 评论 -
Spark源码系列(二) Dependency&ReduceBykey源码
Spark源码系列(二) Dependency&ReduceBykey源码文章目录Spark源码系列(二) Dependency&ReduceBykey源码DependencyShuffleDependency在Spark源码系列(一)RDD的文章中,主要提到了RDD的由来、原理以及主要的Transformation&Action算子。其中依赖和reduceBykey是需要重点深入了解的。本篇文章就重点说一下宽窄依赖和reduceBykey源码。Dependency首先从整体原创 2020-07-13 00:11:29 · 321 阅读 · 0 评论 -
Spark源码系列(一) RDD详解以及部分算子源码解析
Spark源码系列(一) RDD详解文章目录Spark源码系列(一) RDD详解Spark理论基石-RDD概述RDD的由来RDD特点分区只读依赖缓存检查点机制不适合使用RDD的应用小结编程模型应用举例RDD源码解析RDD ActionsRDD TransformationmapfilterflatMapdistinctgroupByreduceBykeySpark理论基石-RDD概述RDD叫做弹性分布式数据集(Resilient Distributed Datasets),它是一种分布式的内存抽象,原创 2020-07-10 17:21:36 · 941 阅读 · 0 评论