Spark相关术语

[align=left][size=x-large]RDD[/size][/align]
全称为Resilient Distributed Dataset,弹性分布式数据集。
就是分布在集群节点上的数据集,这些集合可以用来进行各种操作,能实现MapReduce不擅长的计算工作(比如迭代式、交互式和流式)。最重要的一点是,某个操作计算后的数据集可以缓存在内存中,然后给其他计算使用,这种在迭代计算中很常见。
[size=large][b]原始的RDD经过一系列转化后,会在最后的RDD上触发一个动作,这个动作会生成一个Job。Job被划分为不同的阶段,每个阶段有一批计算任务(Task)组成,这批Task会被集群提交到集群上的计算节点去计算。[/b][/size]
[size=large]
[align=left]Iterator[/align][/size]
迭代器,即是提供一级接口给其他人来访问RDD 中的数据集。
如下代码中的t所示:
RDD.mapPartitions((t: Iterator[(ImmutableBytesWritable, org.apache.hadoop.hbase.client.Result)])=>{相关操作}

[align=left][size=large]Job[/size][/align]
一道作业,即指应用完成某项需求所需要一系列工作,统一称为作业。
[size=large][align=left]DAG[/align][/size]
有向无环图,将作业分解成若干个阶段,每个阶段都是由若干个task 组成,而这些阶段都是有先后顺序的,故将这些阶段组织成DAG,来表示其先后顺序。
[align=left][size=large]Stage[/size][/align]
阶段,是指job 中的一个结点。
[align=left][size=large]Taskset[/size][/align]
每个阶段将由若干个task 组成,这些task 统一称为taskset。
[align=left][size=large]Task[/size][/align]
Task 是指最终在slave 结点上运行的工作。
[size=large]如下图所示:
与MR的区别
MR 的缺点:
1. Shuffle 的性能。Map 到reduce 之间数据多次需要IO 操作。
2. 当有多个MR 时,每轮的MR 之间需要将结果写到hdfs 上。
3. 只有map,reduce 二种计算模型,无法建立一组DAG 操作,来减少中间的一些操作开销。
以上的缺点都是spark 的优点。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
当然,我会为您解答这个问题。下面是Spark重要术语的简述: 1. RDD(Resilient Distributed Datasets):弹性分布式数据集,是Spark中最基本的数据结构。它是一个分布式的只读数据集合,可分区、可并行计算,并可在节点之间缓存。RDD在Spark的计算中起到了重要的作用,它是Spark的核心组件之一。 2. DAG(Directed Acyclic Graph):有向无环图,是Spark中的一个概念,描述了Spark中的计算过程。Spark将整个计算过程抽象成一个DAG,每个节点表示一个RDD,每个边表示一个转换操作。 3. Executor:执行器,是Spark中运行在集群节点上的计算进程。每个Executor都负责运行作业中的一部分任务,同时缓存数据,以便之后的计算可以更快地访问数据。 4. Application:应用程序,是Spark中的一个概念,表示一个由Spark程序员编写的Spark程序。应用程序可以包含多个作业(Job),每个作业可以包含多个阶段(Stage)。 5. Task:任务,是Spark中最小的并行计算单元。每个任务都会处理一个RDD分区中的数据,并生成一个新的分区。 6. Job:作业,是Spark中的一个概念,表示一个RDD转换操作的集合。当Spark程序员调用一个转换操作时,Spark会将这个操作添加到一个作业中。 7. Stage:阶段,是Spark中的一个概念,表示一组并行计算任务。每个阶段都由一个或多个相同的RDD分区组成,并且可以并行计算。阶段是Spark中的并行计算单元。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值