- 博客(7)
- 资源 (5)
- 收藏
- 关注
原创 RDD Join 性能调优
阅读本篇博文时,请先理解RDD的描述及作业调度:[《深入理解Spark 2.1 Core (一):RDD的原理与源码分析 》](http://blog.csdn.net/u011239443/article/details/53894611#t16)Join数据是我们在Spark操作中的很重要的一部分。Spark Core 和Spark SQL的基本类型都支持join操作。虽然join很常用而且功能
2017-01-12 17:18:16 9991
原创 深入理解Spark 2.1 Core (八):Standalone模式容错及HA的原理与源码分析
第五、第六、第七篇博文,我们讲解了Standalone模式集群是如何启动的,一个App起来了后,集群是如何分配资源,Worker启动Executor的,Task来是如何执行它,执行得到的结果如何处理,以及app退出后,分配了的资源如何回收。但在分布式系统中,由于机器众多,所有发生故障是在所难免的,若运行过程中Executor、Worker或者Master异常退出了,那该怎么办呢?这篇博文,我们就来讲
2017-01-09 14:27:24 2122
原创 深入理解Spark 2.1 Core (七):任务执行的原理与源码分析
上篇博文《深入理解Spark 2.1 Core (六):资源调度的实现与源码分析》中我们讲解了,AppClient如何启动,启动后如何为该app分配executor资源,以及分析了在Spark1.4之前资源调度算法的bug。接下来,我们就来讲逻辑上资源调度完后,该如何物理上启动Executor,以及Executor如何执行Task的。启动Executor 调用栈如下:Master.allocat
2017-01-06 23:08:07 3086 2
原创 深入理解Spark 2.1 Core (六):资源调度的原理与源码分析
在上篇博文中,我们讲到了如何启动Master和Worker,还讲到了如何回收资源。但是,我们没有将AppClient是如何启动的,其实它们的启动也涉及到了资源是如何调度的。这篇博文,我们就来讲一下AppClient的启动和逻辑与物理上的资源调度。
2017-01-05 23:25:43 5449 1
原创 深入理解Spark 2.1 Core (五):Standalone模式运行的原理与源码分析
概述前几篇博文都在介绍Spark的调度,这篇博文我们从更加宏观的调度看Spark,讲讲Spark的部署模式。Spark部署模式分以下几种:local 模式local-cluster 模式Standalone 模式YARN 模式Mesos 模式我们先来简单介绍下YARN模式,然后深入讲解Standalone模式。YARN 模式介绍YARN介绍YARN是一个资源管理、任务调度的框架,主要包含
2017-01-05 17:25:14 3170
原创 深入理解Spark 2.1 Core (四):运算结果处理和容错的原理与源码分析
在上一篇博文《深入理解Spark 2.1 Core (三):任务调度器的实现与源码分析 》TaskScheduler在发送任务给executor前的工作就全部完成了。这篇博文,我们来看看当executor计算完任务后,Spark是如何处理获取的计算结果与容错的。概述对于计算结果,会根据结果的大小有不同的策略:生成结果在(∞,1GB)(\infty,1GB):结果直接丢弃,可以通过spark.dr
2017-01-04 22:11:14 3998 1
原创 深入理解Spark 2.1 Core (三):任务调度器的原理与源码分析
上一篇博文《深入理解Spark 2.1 Core (二):DAG调度器的实现与源码分析 》讲到了DAGScheduler.submitMissingTasks中最终调用了taskScheduler.submitTasks来提交任务。这篇我们就从taskScheduler.submitTasks开始讲,深入理解TaskScheduler的运行过程。提交Task调用栈如下:TaskSchedulerI
2017-01-03 17:12:22 4195
SMP2020微博情绪分类技术评测数据集
2022-12-29
jblas-1.2.4-SNAPSHOT
2016-06-26
Spark机器学习文本处理数据集
2016-06-20
Spark机器学习推荐模型数据集
2016-06-18
Spark机器学习回归模型数据集
2016-06-15
Spark机器学习分类模型的数据集
2016-06-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人