Spark
文章平均质量分 74
0毛蛋0
这个作者很懒,什么都没留下…
展开
-
深入Spark内核:任务调度(2)-DAGScheduler
DAGScheduler面向stage的调度(stage-oriented scheduling)的高级调度器,为每个job的不同stage计算DAG,跟踪哪些RDD和stage被物化并且发现运行job的最小的调度策略,然后以taskset为单位提交(submitTasks)给TaskScheduler。除了提交stage的DAG外, DAGScheduler基于cache的当前状态来决定每个原创 2015-04-08 14:51:45 · 1546 阅读 · 0 评论 -
深入Spark内核:任务调度(3)-TaskScheduler
TaskScheduler相较于DAGScheduler来说是一个低级的任务调度器(low-level task scheduler),更加准确的来说它更像是一个任务调度器接口。TaskScheduler的实现类只有一个TaskSchedulerImpl。TaskScheduler核心工作负责任务的发送和任务执行过程的监控,而一个TaskScheduler只为一个SparkContext实例服务,原创 2015-04-11 16:43:53 · 1662 阅读 · 0 评论 -
深入Spark内核:任务调度(4)-Task
sdfds原创 2015-04-17 00:16:07 · 762 阅读 · 0 评论 -
深入Spark内核:任务调度(1)-基本流程
SparkContext是Spark应用的入口并负责和整个集群的交互,创建RDD,累积量(accumulators variables)和广播量(broadcast variables)等, 理解spark的任务调度基本流程,就需要从SparkContext开始。下图是官网Spark的架构图: DriverProgram即用户提交的程原创 2015-04-08 14:14:15 · 1037 阅读 · 0 评论