![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 79
bigbigdata
这个作者很懒,什么都没留下…
展开
-
举例说明Spark RDD的分区、依赖
例子如下:scala> val textFileRDD = sc.textFile("/Users/zhuweibin/Downloads/hive_04053f79f32b414a9cf5ab0d4a3c9daf.txt")15/08/03 07:00:08 INFO MemoryStore: ensureFreeSpace(57160) called with curMem=0, maxMem原创 2015-08-05 09:45:12 · 1048 阅读 · 0 评论 -
[Spark源码剖析] DAGScheduler提交stage
DAGScheduler通过调用submitStage来提交stage,实现如下: private def submitStage(stage: Stage) { val jobId = activeJobForStage(stage) if (jobId.isDefined) { logDebug("submitStage(" + stage + ")")原创 2015-08-06 08:15:32 · 1119 阅读 · 0 评论 -
[Spark源码剖析] Task的调度与执行源码剖析
本文基于Spark 1.3.1,Standalone模式一个Spark Application分为stage级别和task级别的调度,stage级别的调度已经用DAGScheduler划分stage和DAGScheduler提交stage两片文章进行源码层面的说明,本文将从源码层面剖析task是如何被调度和执行的。函数调用流程先给出task调度的总体函数调用流程,并说明每个关键函数是干嘛的。这样一原创 2015-08-20 06:11:46 · 1080 阅读 · 0 评论 -
[Spark源码剖析] DAGScheduler划分stage
本文基于Spark 1.3.1先上一些stage相关的知识点:DAGScheduler将Job分解成具有前后依赖关系的多个stageDAGScheduler是根据ShuffleDependency划分stage的stage分为ShuffleMapStage和ResultStage;一个Job中包含一个ResultStage及多个ShuffleMapStage一个stage包含多个tasks原创 2015-08-05 10:36:29 · 1862 阅读 · 0 评论 -
Spark Application调试心得
能用local模式,千万不要用分布式模式~原创 2015-09-28 19:57:41 · 525 阅读 · 0 评论 -
[spark源码剖析]RDD相关源码阅读笔记
RDD相关源码阅读笔记 最好的源码阅读方法就是调试,没有之一之前其实有阅读过RDD相关的源码,最近学习过程中发现在之前原本阅读过的模块中有一些『关节』并没有打通,所以想通过调试的方式来更细致得学习源码。 本文为编写测试用例并调试RDD相关模块的笔记,并没有列出具体的调试过程,仅列出结论以做备忘,特别是那些比较容易忽略或者说是其他blog或者书本中比较少提到的。RDD重要成员及方法依赖RDD共原创 2015-09-13 07:23:31 · 824 阅读 · 0 评论