Spark中的一些术语

  • Application:用户构建的应用程序,包括驱动程序(一个Driver功能的代码)和在集群的多个工作结点上运行的Executor代码。
  • Driver:运行应用的main()函数并创建SparkContext进程。初始化SparkContext是为了准备Spark应用程序的运行环境,在Spark中由SparkContext负责与集群进行通信,进行资源的申请、任务的分配和监控等。当Worker结点中的Executor部分运行完毕后,Driver同时负责将SparkContext关闭。
  • Executor:在工作结点中为Spark应用所启动的一个进程,它可以运行task,也可以在内存或者磁盘中保存数据。每一个应用都有属于自己的独立的一批Executor。
  • ClusterManager:在集群上获取资源的拓展服务,目前spark主要支持三种类型—standalone,mesos,yarn。
  • Worker:集群中任何可以运行Spark应用的节点。在standalone模式中指的是通过Spark的conf目录下的slave文件配置的worker节点,在spark on yarn模式中指的是nodemanager节点。
  • Task:一个可以发给Executor执行的工作单元,是运行spark应用的基本单元。
  • Job:由spark的action操作触发,在spark中通过runJob方法想spark集群提交job。
  • Stage:每个job因为RDD之间的依赖关系被拆分成多个task的集合,即stage。stage是由DAGScheduler来完成的。stage有Shuffle Map Stage和Result Stage两种。
  • DAGScheduler:面向stage的任务调度器,负责接收spark应用提交的job,根据RDD的依赖关系划分stage,并提交stage给TaskScheduler。
  • TaskScheduler:面向task的任务调度器,它接收DAGScheduler提交过来的TaskSets,然后把一个个task提交到work节点运行,每个Executor运行什么task也是在此处分配的。
  • RDD:spark的编程模型,它被表示为已被分区,被序列化的,不可变的,有容错机智的,,并且能够并行操作的数据集合。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值