Soul Joy Hub

但行好事,莫问前程。

RDD Join 性能调优

阅读本篇博文时,请先理解RDD的描述及作业调度:[《深入理解Spark 2.1 Core (一):RDD的原理与源码分析 》](http://blog.csdn.net/u011239443/article/details/53894611#t16)Join数据是我们在Spark操作中的很重要的一...

2017-01-12 17:18:16

阅读数 7529

评论数 0

深入理解Spark 2.1 Core (八):Standalone模式容错及HA的原理与源码分析

第五、第六、第七篇博文,我们讲解了Standalone模式集群是如何启动的,一个App起来了后,集群是如何分配资源,Worker启动Executor的,Task来是如何执行它,执行得到的结果如何处理,以及app退出后,分配了的资源如何回收。但在分布式系统中,由于机器众多,所有发生故障是在所难免的,...

2017-01-09 14:27:24

阅读数 1738

评论数 0

深入理解Spark 2.1 Core (七):任务执行的原理与源码分析

上篇博文《深入理解Spark 2.1 Core (六):资源调度的实现与源码分析》中我们讲解了,AppClient如何启动,启动后如何为该app分配executor资源,以及分析了在Spark1.4之前资源调度算法的bug。接下来,我们就来讲逻辑上资源调度完后,该如何物理上启动Executor,以...

2017-01-06 23:08:07

阅读数 2663

评论数 1

深入理解Spark 2.1 Core (六):资源调度的原理与源码分析

http://blog.csdn.net/u011239443/article/details/54098376在上篇博文《深入理解Spark 2.1 Core (五):Standalone模式运行的实现与源码分析》 中,我们讲到了如何启动Master和Worker,还讲到了如何回收资源。但是,我...

2017-01-05 23:25:43

阅读数 4704

评论数 0

深入理解Spark 2.1 Core (五):Standalone模式运行的原理与源码分析

概述前几篇博文都在介绍Spark的调度,这篇博文我们从更加宏观的调度看Spark,讲讲Spark的部署模式。Spark部署模式分以下几种: local 模式 local-cluster 模式 Standalone 模式 YARN 模式 Mesos 模式 我们先来简单介绍下YARN模式,然后深入讲解...

2017-01-05 17:25:14

阅读数 2437

评论数 0

深入理解Spark 2.1 Core (四):运算结果处理和容错的原理与源码分析

在上一篇博文《深入理解Spark 2.1 Core (三):任务调度器的实现与源码分析 》TaskScheduler在发送任务给executor前的工作就全部完成了。这篇博文,我们来看看当executor计算完任务后,Spark是如何处理获取的计算结果与容错的。概述对于计算结果,会根据结果的大小...

2017-01-04 22:11:14

阅读数 2631

评论数 1

深入理解Spark 2.1 Core (三):任务调度器的原理与源码分析

上一篇博文《深入理解Spark 2.1 Core (二):DAG调度器的实现与源码分析 》讲到了DAGScheduler.submitMissingTasks中最终调用了taskScheduler.submitTasks来提交任务。这篇我们就从taskScheduler.submitTasks开始...

2017-01-03 17:12:22

阅读数 3500

评论数 0

提示
确定要删除当前文章?
取消 删除