spark分析
文章平均质量分 88
隔壁老杨hongs
1949年我被捕了,第一天我没招,第二天我还是没招,第三天敌人用美人计我招了,第四天我还想招,解放了.
展开
-
RDD的依赖关系
RDD的依赖关系Rdd之间的依赖关系通过rdd中的getDependencies来进行表示,在提交job后,会通过在DAGShuduler.submitStage-->getMissingParentStagesprivatedefgetMissingParentStages(stage: Stage): List[Stage] = {valmissing =newHash原创 2014-05-03 01:32:19 · 3215 阅读 · 0 评论 -
spark shuffle部分分析
spark shuffle流程分析 回到ShuffleMapTask.runTask函数 现在回到ShuffleMapTask.runTask函数中: override def runTask(context: TaskContext): MapStatus = { 首先得到要reduce的task的个数。 valnumOutputSplits...2014-05-09 13:37:38 · 191 阅读 · 0 评论 -
Task的执行过程分析
Task的执行过程分析 Task的执行通过Worker启动时生成的Executor实例进行, case RegisteredExecutor(sparkProperties) => logInfo("Successfully registered with driver") // Make this host instead of hostPort ...2014-05-08 12:32:00 · 251 阅读 · 0 评论 -
Spark中的Scheduler
Spark中的Scheduler scheduler分成两个类型,一个是TaskScheduler与其实现,一个是DAGScheduler。 TaskScheduler:主要负责各stage中传入的task的执行与调度。 DAGScheduler:主要负责对JOB中的各种依赖进行解析,根据RDD的依赖生成stage并通知TaskScheduler执行。 实例生...2014-05-03 21:23:35 · 160 阅读 · 0 评论 -
RDD的依赖关系
RDD的依赖关系 Rdd之间的依赖关系通过rdd中的getDependencies来进行表示, 在提交job后,会通过在 DAGShuduler.submitStage-->getMissingParentStages privatedef getMissingParentStages(stage: Stage): List[Stage] = { va...2014-05-03 01:39:03 · 127 阅读 · 0 评论 -
从wordcount分析spark提交job
从WordCount开始分析 编写一个例子程序 编写一个从HDFS中读取并计算wordcount的例子程序: package org.apache.spark.examples import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ ...2014-05-02 12:51:37 · 165 阅读 · 0 评论 -
spark编译与onyarn的运行
Spark on yarn执行流程源代码分析目前的分析主要基于spark0.9.0的cdh5的版本进行分析,源代码下载地址:https://github.com/cloudera/spark.git下载方式:gitclone url ./spark进入spark目录,执行gitcheckoutcdh5-0.9.0_5.0.0源代码编译使用sbt编译spa原创 2014-04-28 14:35:06 · 2252 阅读 · 0 评论 -
Task的执行过程分析
Task的执行过程分析Task的执行通过Worker启动时生成的Executor实例进行,caseRegisteredExecutor(sparkProperties)=>logInfo("Successfullyregistered with driver")//Make this host instead of hostPort ?executor=newExecuto原创 2014-05-08 12:31:27 · 3800 阅读 · 0 评论 -
spark shuffle过程分析
spark shuffle流程分析回到ShuffleMapTask.runTask函数现在回到ShuffleMapTask.runTask函数中:overridedef runTask(context:TaskContext): MapStatus = {首先得到要reduce的task的个数。valnumOutputSplits=dep.partitioner.num原创 2014-05-09 13:36:18 · 3342 阅读 · 0 评论 -
Spark中的Scheduler
Spark中的Schedulerscheduler分成两个类型,一个是TaskScheduler与其实现,一个是DAGScheduler。TaskScheduler:主要负责各stage中传入的task的执行与调度。DAGScheduler:主要负责对JOB中的各种依赖进行解析,根据RDD的依赖生成stage并通知TaskScheduler执行。实例生成TaskSchedule原创 2014-05-03 21:17:30 · 2256 阅读 · 0 评论 -
spark 启动job的流程分析
从WordCount开始分析编写一个例子程序编写一个从HDFS中读取并计算wordcount的例子程序:packageorg.apache.spark.examplesimportorg.apache.spark.SparkContextimportorg.apache.spark.SparkContext._objectWordCount{defm原创 2014-05-02 12:47:18 · 4567 阅读 · 1 评论 -
spark编译与onyarn的运行
Spark on yarn执行流程源代码分析 目前的分析主要基于spark0.9.0的cdh5的版本进行分析, 源代码下载地址:https://github.com/cloudera/spark.git 下载方式:git clone url ./spark 进入spark目录,执行git checkout cdh5-0.9.0_5.0.0 ...2014-04-28 14:40:43 · 122 阅读 · 0 评论