spark cache优化

最新推荐文章于 2024-01-13 07:48:29 发布

1308058625

最新推荐文章于 2024-01-13 07:48:29 发布

阅读量332

点赞数

文章标签： spark cache 优化

本文链接：https://blog.csdn.net/u012189807/article/details/80506381

版权

cache优化针对的是rdd_a不仅要计算得到rdd_b还要计算得到rdd_c，如果不cache再计算rdd_c时就要重新计算rdd_a，因为在计算完rdd_b时系统就以为rdd_a没用了就释放了。

rdd_a = sc.textFile(file_path)

rdd_b = rdd_a.map(fun1).reduceByKey(fun2)

rdd_c = rdd_a.map(fun3).reduceByKey(fun4)

这样程序就会读两次hdfs文件，如果rdd_a很复杂浪费的时间就很多了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

1308058625

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Spark中持久化cache算子详解介绍

CSDN 精品推荐

08-19

305

函数用于将RDD或Dataset的计算结果存储在集群的内存中，以便于后续的操作可以重用这些数据，而不需要重新计算。这大大提高了迭代计算的效率，特别是对于迭代算法和重复数据访问的场景。这可能意味着改变你的工作流，以便在缓存之前过滤掉不需要的数据。如果你的工作负载真的需要大量的缓存，并且优化工作流以减少缓存的大小不可行，那么增加集群的内存是一个明智的选择。通过上述策略和选项的合理组合和应用，可以更灵活地管理Spark作业的内存使用，减缓或解决内存不足的问题。使用更紧凑的数据结构，这可以减少每条记录的内存占用。

spark sql cache

weixin_30772105的博客

09-22

673

1.几种缓存数据的方法例如有一张hive表叫做activity 1.CACHE TABLE //缓存全表 sqlContext.sql("CACHE TABLE activity") //缓存过滤结果 sqlContext.sql("CACHE TABLE activity_cached as select * from activity where ...") ...

参与评论您还未登录，请先登录后发表或查看评论

Spark中的cache和persist

Mr.Phoebe的专栏

02-08

5795

Spark中cache和persist的作用以及存储级别前言 Spark开发高性能的大数据计算作业并不是那么简单。如果没有对Spark作业进行合理的调优，Spark作业的执行速度可能会很慢，这样就完全体现不出Spark作为一种快速大数据计算引擎的优势来。因此，想要用好Spark，就必须对其进行合理的性能优化。有一些代码开发基本的原则，避免创建重复的RDD，尽可能复用同一个RDD，如下...

Spark的缓存Cache

qq_45578476的博客

11-28

184

使用原因 Spark RDD是惰性求值的，当对于RDD使用简单的调用操作时，Spark会每次都重算RDD及其依赖，增大损耗。为了减轻损耗避免RDD的重算且复用RDD的目的，就需要使用Spark的缓存Cache。在spark交互中：同样的处理数据比较缓存和不缓存的区别启动hdfs,zookeeper,spark 在Spark下的bin中启动spark-shell 交互指令快速生成：在bin目录...

Spark cache/persist区别和cache使用误区分析

aijiudu的博客

01-11

2万+

Spark cache的用法及其误区: 一、使用Cache注意下面三点（1）cache之后一定不能立即有其它算子，不能直接去接算子。因为在实际工作的时候，cache后有算子的话，它每次都会重新触发这个计算过程。（2）cache不是一个action，运行它的时候没有执行一个作业。（3）cache缓存如何让它失效：unpersist，它是立即执行的。persist是lazy级别的（没有计...

spark利用cache优化shuffle

RayfunC的博客

01-02

715

cache表，数据放内存，数据被广播到Executor，将多份数据进行关联是数据处理过程中非常普遍的用法，不过在分布式计算系统中，这个问题往往会变的非常麻烦，因为框架提供的 join 操作一般会将所有数据根据 key 发送到所有的 reduce 分区中去，也就是 shuffle 的过程。造成大量的网络以及磁盘IO消耗，运行效率极其低下，这个过程一般被称为 reduce-side-join。如果其中有张表较小的话，我们则可以自己实现在 map 端实现数据关联，跳过大量数据进行 shuffle 的过程，

spark cache操作

qq_33409840的博客

04-05

2196

spark的rdd对应的是一个弹性的分布式的数据集，对应的数据是只读的数据。在这种情况下，充分的使用缓存是能够很好的提高性能的。那么应该如何操作了？ spark会将代码对应的解析成为多个dag的有向无环图的操作的。下面是解析之后的一个简单的示意图的从图中可以看到，对应的是存在如下的问题的。每一个DAG对应的都是从数据源读取数据的，这样的操作本身来说是存在问题的。数据本身其实只是需要读取一次就可以了，后续的数据都是需要基于当前的数据来执行操作的，这个读取的数据是可以缓存的。 1.所以，可以在第一步读取数

Spark性能优化研究--cache的用法

fengkuang的一亩三分地

07-23

2574

Spark性能优化研究–cache的用法背景最近在用spark训练模型，数据量达到了50亿量级，遇到了很多性能问题，特此进行了试验总结。我们使用cache或者persist内存持久化的目的，是为了在以后的数据计算中减少数据读取的时间，当要处理的数据量过大时，比如50亿级，常常会遇到内存不够，或者cache所需时间过长的问题。cache会破坏spark在做DAG优化执行计划的时候的数据本...

【Spark】Spark cache 报错 Exception thrown in awaitResult

九师兄

05-13

2304

写了一段代码，如下，但是运行的时候，时不时报错错误如下java.lang.OutOfMemoryError: Java heap space 错误，这通常意味着在 Spark 应用程序执行过程中，JVM 的堆内存不足以容纳所有数据，导致了内存溢出错误。你调用了 cache() 方法试图缓存 DataFrame 或 RDD 的结果，但是由于数据集的大小超出了分配给 Spark Executor 的内存，导致了内存溢出错误。

【Spark三十七】Spark Cache机制

bit1129的博客

02-01

565

今天状态很差，很困，无精打采。学到的Spark知识，没有连贯起来，很多知识点有印象但是很模糊，说不出个123来。本来今天要看看cache，checkpoint和broadcast，结果今天到现在为止已经是5点了，还没有任何的进展。开始硬着头皮把Spark的Cache机制搞一搞吧，发现，cache机制比想象中的难驾驭。调用reduceByKey对应的ShuffledRDD对应的...

spark缓存cache和checkpoint理解代码演示

weixin_47699191的博客

03-31

299

cache cache缓存适用于多次重复使用的RDD,并且数据量不是特别大.可以将这个RDD的分区数据缓存到内存中,下次调用这个RDD进行操作,就不用从头去读取数据,直接从内存中读取然后计算. rdd.cache()后需要遇到action才会将RDD分区数据缓存到内存中. 在此次action操作后再调用被缓存的RDD进行其它操作.然后遇到第二个action会从内存中读取被缓存的RDD数据然后进行其它操作运算. cache图解: checkpoint 使用于逻辑链条长的RDD,并且数据量特大,然后可以使用c

通过Spark Shell测试Spark集群以cache机制

WEL测试

09-15

1308

第一部分通过Spark的shell测试Spark的工作 Step_1：启动spark-shell 启动Spark集群，然后启动Spark Shell，进入到目录下：/usr/local/spark/spark-1.4.0-bin-hadoop1/sbin，执行名spark-shell，执行结果如下： Step_2:把Spark安装目录下的"README.md

spark的cache(),persist(),unpersist()方法及需要注意的细节

Jimmy and Zoey

11-11

1万+

1 cache(), persist()和unpersist() 原文链接：Spark DataFrame Cache and Persist Explained spark中DataFrame或Dataset里的cache()方法默认存储等级为MEMORY_AND_DISK，这跟RDD.cache()的存储等级MEMORY_ONLY是不一样的。理由是重新计算内存中的表的代价是昂贵的。MEMORY_AND_DISK表示如果内存中缓存不下，就存在磁盘上。 spark的dataset类中的cache()方法内部

spark cache (几种缓存方法)