2015年09月_heayin123

原创 spark调度系列------4. RDD依赖的建立以及RDD依赖在任务提交到调度系统的作用

Spark中RDD依赖的类关系如下图：

2015-09-25 13:51:03 1896

原创 spark-streaming系列------- 3. Kafka DirectDStream方式数据的接收

KafkaRDD分区个数的确定和每个分区数据接收的计算在KafkUtils.createDirectStream创建了DirectDStream，代码如下：def createDirectStream[ K: ClassTag, V: ClassTag, KD <: Decoder[K]: ClassTag, VD <: Decoder[V]: ClassTag]

2015-09-23 11:36:24 5521 1

原创 Spark调度系列-----3.SparkContext对象的创建和SparkContext的作用

SparkContext是Spark Application程序的表示。在Driver程序中首先创建SparkContext对象，在创建这个对象的时候，Spark Application运行需要的重要参数会在这里初始化。下面的图表述了SparkContext创建初始化的重要参数。DAGSchedule的作用：Spark Stage的切分等功能，它主要描述了Spark Appli

2015-09-17 18:35:32 3225

原创 spark调度系列------2. Spark Executor的创建和启动过程

上一讲主要降到了spark executor资源在Master的分配原理。今天来讲Spark Executor的创建和启动过程。创建的过程可以功过如下时序图表示：在Standalone模式下，Backend.start()方法最终调用了SparkDeploySchedulerBackend.start()，这个方法的作用是：1. 调用父类的CoarseGrainedSchedu

2015-09-16 10:44:12 6039 2

原创 spark调度系列----1. spark stanalone模式下Master对worker上各个executor资源的分配

spark Application的注册时在Master类中对RegisterApplication消息的处理。Master类里面对RegisterApplication消息处理时，首先将Application信息注册到Master，然后调用了Master.schedule方法相关代码如下：case RegisterApplication(description, d

2015-09-14 18:04:59 5162 2

原创 spark-streaming系列------- 2. spark-streaming的Job调度下

接着上一篇文章，spark-streaming系列------- 1. spark-streaming的Job调度上讲spark-streaming job的具体生成 spark-streaming job的具体生成在JobGenrerator.generatorJobs，代码如下： private def generateJobs(time: Time) { /

2015-09-11 18:09:01 1366

原创 spark-streaming系列------- 1. spark-streaming的Job调度上

这段时间分析了下spark-streming任务调度的源码，成果分享一下。类似于spark-core，spark-streaming有自己的一套任务调度，具体代码在spark-streaming的scheduler包里面。我以Kafka DirectDStream数据接收为例，画了一张整体的流程图：在将这张图之前，需要先明确spark-strea

2015-09-10 16:12:29 2242

u012684933的专栏