RDD:弹性分布式数据集
主要特点:
1,数据全集被分割成多个正相交的数据子集,每个数据子集可以被派发到任一计算节点进行处理
2,计算的中间结果会被保存。同一个计算结果会被保存在多,个计算节点
3,如果某一个数据子集在处理中出现问题,该数据子集的处理会被重新调度进而重新处理。
RDD的操作:
转换,action
转换是一个规划的过程,并不运算
action才是真正运行提交job。
作业的提交:由action操作触发
spark接收到job会:
1,RDD依赖分析。RDD依赖形成一个有向无环图DAG,依赖关系的划分由DAGScheduler负责
2,根据划分结果一个job分成多个Stage
3,stage确定完,向TaskScheduler提交任务集。而TaskSchedule负责将这些任务分发到集群的计算节点。