RDD Resillient distributed dataset 弹性分布式数据集
Application Spark的用户程序
Driver Program 运行main函数并且新建SparkContext的程序
Cluster Manager Spark集群资源调度服务(standalone,mesos,yarn)
Worker Node Spark集群中的运行应用代码的节点
Executor worker node的一个进程,负责运行任务,并且负责将数据存在内存或磁盘上。 每个应用都用独立的executor
Task 被送到某个executor上的工作单元
job 包含多个RDD及作用于RDD上的各种operation(每个job包含多个stage,一个 stage是由task完成)
Stage 一个job分为多个阶段
Narrow Dependency 窄依赖,子RDD依赖父RDD中固定的data partition
Wide Dependency 宽依赖,子RDD对父RDD的所有data partition都有依赖
Caching Management 缓存管理,对RDD的中间计算结果进行缓存管理以加快整体的处理速度
可以通过哪些模式运行Spark
Local 使用与windows和linux平台(多用于测试)。
Standalone spark集群模式,使用spark自己的调度方式。
Yarn 对Mapreduce V1升级的经典版本,支持spark。
Mesos 类似Yarn的资源调度框架,提供了有效的、跨分布式应用或框架的资源隔离和共
享,可以运行Hadoop、Spark等框架。