什么是RDD? RDD就是带有分区的集合类型,特点是可以并行操作,并且具有容错性。 创建RDD 查看RDD 什么是DAG DAG指的是有向无环图,一个DAG中记录了RDD之间的依赖关系,RDD通过依赖关系可以实现数据的容错,当RDD某个分区数据丢失时,可以通过依赖关系和父RDD的分区数据实现恢复。 RDD的依赖关系 Spark架构与调度模块 SC负责任务的调度分配 Cluster Manager为task分配运算资源 较完整的调度模块 Spark Shuffle RDD容错机制与RDD缓存