Spark - 延时计算

1. 目的

在spark延时计算教程中,我们将要知道在spark中什么是延时计算.spark怎样管理Spark RDD数据转换的延时计算. 原因背后Spark延时计算和Spark延时计算的优点什么在Spark转换操.

在Spark中延时计算是什么

在开始Spark延时计算之前,让我们复习Spark概念.
正如名称自身表明了他自己的定义,在Spark中延时计算意味执行将不会开始,直到有行动被触发.在Spark中,只有当spark转换发生延时计算才发生.

转换延时本质上意味着当我们调用一些RDD的操作,它不是直接执行.Spark维护操作记录,被称为DAG.我们认为Spark RDD相当于数据,我们构建它通过转换.因为转换本质上是延时的,所以我们执行操作任何时间通过调用数据上的行为.因此,在数据上的延时计算没有加载,直到它是必需执行.
请添加图片描述
在MapReduce中,开发者很多时间浪费在极小MapReduce阶段,它发生通过募集操作在一起.然而在Spark我们没有创建单个指定图,而是我们募集很多简单操作.因此它创建Hadoop MapRedce 和Spark的不同.

在Spark中 driver程序加载代码到集群.当代码执行,每个代码在操作之后执行时,任务将被消耗时间和内存消费.因此每次数据都要进入集群进行评估.

3. 在Spark中延时计算在转换中的优势

在Spark中延时计算有一些优点.

a. 增加可管性

通过延时计算,用户可以组织他们的Spark程序到更小的操作.通过重组操作在数据上它减少大量阶段.

b. 保存计算并且提升速度

Spark延时计算扮演一个关键角色在避免计算过载.因为只有必要的值可以计算.它节约了driver和集群之间数据流,因此提升了处理.

c. 减少复杂度

任何操作的两个主要复杂性是时间和空间两个维度.使用Spark延时计算我们解决了这两个.因为我们不执行每一个操作,因此时间省了下来.它让我们运行在一个无限的数据结构.操作被处理仅仅当数据需要时,它减少了负载.

优化

提供优化通过减少大量查询.
了解更多查看Spark优化.

结论

因此,延时计算提高了Spark的能力,通过减少RDD操作执行的时间.它维护血缘图来计算RDD上的操作.结果,它的性能优化,并且获得了容错性.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值