- 博客(2)
- 资源 (2)
- 收藏
- 关注
原创 图解SparkContext创建过程
1.SparkContext构建的顶级三大核心对象:DAGScheduler、TaskScheduler、ShedulerBackend,其中: 1)DAGScheduler是面向Job的Stage的高层调度器; 2)TaskScheduler是一个接口,根据具体的Cluster Manager的不同会有不同的实现,Standalone模式下具体的实现是TaskSchedulerImpl;
2017-09-21 15:09:34 866
原创 Spark作业执行原理
Spark的作业和任务调度系统是Spark的核心,它能够有效地进行调度根本原因是对任务划分DAG和容错,使得它对低层到顶层的各个模块之间的调用和处理显得游刃有余。下面介绍一些相关术语。 作业(Job):RDD中由行动操作所生成的一个或多个调度阶段。调度阶段(Stage):每个Job作业会因为RDD之间的依赖关系拆分成多组任务集合,称为调度阶段,简称阶段,也叫做任务集(TaskSet)。调
2017-09-05 09:16:51 607
Hive数据仓库(一)
2016-09-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人