1.Spark基本模块
- RDD (Resillient Distributed Dataset):弹性分布式数据集
- Task:具体执行的任务。Task(ShuffleMapTask & ReduceTask)
- Job:用户提交的作业。Job(one or more Task)
- Stage:Job分成的阶段。Job(one or more Stage)
- Partition:数据分区。RDD(one or more Partition)
- NarrowDependency:窄依赖,即子RDD依赖于父RDD中固定的Partition。NarrowDepenency(OneToOneDependency & RangeDependency)
- ShuffleDependency:宽依赖(shuffle依赖),即子RDD依赖于父RDD中所有Partition
- DAG(Directed Acycle Graph):有向无环图,用于反应各个RDD之间的依赖关系
2.Spark模块设计
2-1 Spark Core:
Spark的核心功能模块