Spark术语解释

术语解释

名词含义
Application用户在spark上的程序,由一个driver程序和数个executor组成
Application jar包含用户Spark应用程序的jar包
Driver program运行main函数并且创建SparkContext的程序
Cluster manager集群的资源管理器,可以获取集群中资源的外部服务
Deploy modedriver的部署运行模式,分”cluster”和”client”两种模式。在”cluster”模式下,框架会在集群中的任意一台机器上启动driver;在”client”模式下,dirver会在集群外被提交者启动。
Worker node集群中任何一个可以运行spark应用代码的节点。Worker Node就是物理节点,可以在上面启动Executor进程。
Executor应用在worker节点上启动的进程,运行任务,并将数据保存在内存或者磁盘上。每个应用都有各自独立的executor。
Task被发送到executor上的工作单元。
Job包含很多个task的并行计算,可以认为是Spark RDD中的action,每个action的计算会生成一个job。
Stage每个job会被拆分成多组task,每组task被称为stages(类似MR中的map stage 和 reduce stage)。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
当然,我会为您解答这个问题。下面是Spark重要术语的简述: 1. RDD(Resilient Distributed Datasets):弹性分布式数据集,是Spark中最基本的数据结构。它是一个分布式的只读数据集合,可分区、可并行计算,并可在节点之间缓存。RDD在Spark的计算中起到了重要的作用,它是Spark的核心组件之一。 2. DAG(Directed Acyclic Graph):有向无环图,是Spark中的一个概念,描述了Spark中的计算过程。Spark将整个计算过程抽象成一个DAG,每个节点表示一个RDD,每个边表示一个转换操作。 3. Executor:执行器,是Spark中运行在集群节点上的计算进程。每个Executor都负责运行作业中的一部分任务,同时缓存数据,以便之后的计算可以更快地访问数据。 4. Application:应用程序,是Spark中的一个概念,表示一个由Spark程序员编写的Spark程序。应用程序可以包含多个作业(Job),每个作业可以包含多个阶段(Stage)。 5. Task:任务,是Spark中最小的并行计算单元。每个任务都会处理一个RDD分区中的数据,并生成一个新的分区。 6. Job:作业,是Spark中的一个概念,表示一个RDD转换操作的集合。当Spark程序员调用一个转换操作时,Spark会将这个操作添加到一个作业中。 7. Stage:阶段,是Spark中的一个概念,表示一组并行计算任务。每个阶段都由一个或多个相同的RDD分区组成,并且可以并行计算。阶段是Spark中的并行计算单元。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值