spark专业术语解释

application:spark应用程序

指用户编写的spark代码,包含了运行在driver端的代码和运行在各个节点上的executor代码

driver:驱动程序

程序中编写的main方法和创建的sparkContext

sparkContext

spark运行环境,用来和clusterManager进行通信

clusterManager:资源管理器

对于standalone模式就是master
对于yarn模式就是resourceManager

worker

spark集群中的从节点,真正干活的,需要启动executor进程去执行任务

executor

运行在worker节点的JVM进程,一个worker可以运行多个executor,因为可以提交多个应用

RDD

弹性分布式数据集,分布在各个worker上的叫做分区

shuffleDependency 宽依赖

父RDD的一个分区会被子RDD的多个分区所依赖

narroeDependency 窄依赖

父RDD的一个分区会被子RDD的一个分区依赖

DAG:有向五环图

指RDD的转化流程,从RDD的创建开始,到Action结束就会形成一个DAG
一个SPARK应用可能会有多个DAG,这取决于触发了多少次action

JOB

按照DAG中各个stage阶段进行执行就称作一个job作业

stage

是DAGScheduler根据shuffle/宽依赖对DAG进行的阶段划分,划分好的stage包含多个task组成的taskSet

TaskSet

一个stage中的多个task组成的集合

Task

RDD的一个分区在计算的时候就是一个Task
[外链图片转存失败(img-xgJO3PQY-1567998168476)(en-resource://database/7925:0)]

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值