Spark名词解释

名称概念详解
Application/App就是程序员写的Spark代码,包括运行在Driver端的代码和运行在Executor端的代码
Driver程序中编写的main方法和创建SparkContext的代码
SparkContext表示Spark运行环境,用来与ClusterManager进行通信的对象
ClusterManager资源管理器,对于Standalone模式就是Master,对于Yarn模式就ResourceManager
WorkerSpark集群中的从节点,是真正干活的 (得去启动Executor进程去执行任务)
Executor运行在Worker节点的JVM进程 (一个Worker可以运行多个Executor,因为可以提交多个应用)
RDD弹性分布式数据集,可以理解为分布式集合,分布的各个Worker上的称做分区
ShuffleDependency宽依赖,父RDD的一个分区会被子RDD的多个分区所依赖
NarrowDependency窄依赖,父RDD的一个分区只会被子RDD的一个分区所依赖
DAG有向无环图,指的是RDD的转换流程 (从RDD被创建开始,到Action结束就会形成一个DAG,所以一个Spark应用
可能会有1~N个DAG,取决于触发了多少次Action)
Job作业,按照DAG中的各个Stage阶段进行执行就称作一个Job作业
Stage阶段,是DAGScheduler根据Shuffle/宽依赖对DAG进行的阶段划分,划分好的Stage中包含多个Task组成的TaskSet
TaskSet一个Stage中的多个Task组成的集合
TaskRDD的一个分区在计算的时候就是一个Task

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值