Spark 性能优化：重构 RDD 及 RDD 持久化

最新推荐文章于 2023-02-14 22:44:42 发布

weixin_34297300

最新推荐文章于 2023-02-14 22:44:42 发布

阅读量151

点赞数

文章标签：大数据

原文链接：https://juejin.im/post/5cef90eff265da1b8c196ef3

版权

在写 Spark 的应用时，应该尽量避免这两种情况：

1，几个功能明明可以在一个算子操作中完成，为了代码清晰，把这个算子拆分成多个算子进行操作。这种操作往往会增加很多的性能开销。

2，出现公用的 RDD 时候不做持久化操作，比如：

RDD2 是会被复用的 RDD，默认情况下，第一次使用 RDD2 生成 RDD3 时候会走一遍 HDFS -> RDD1 -> RDD2

然后用 RDD2 生成 RDD4 的时候，还会走一遍 HDFS -> RDD1 -> RDD2

这样就造成了重复计算。

针对上述的两种情况我们应该这样做：

1，能够在一个算子中操作完成的功能不用拆分到多个算子中去操作；

2，在要复用 RDD 的时候一定要对复用的那个 RDD 做持久化操作。

weixin_34297300

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark 性能优化：重构 RDD 及 RDD 持久化

在写 Spark 的应用时，应该尽量避免这两种情况：1，几个功能明明可以在一个算子操作中完成，为了代码清晰，把这个算子拆分成多个算子进行操作。这种操作往往会增加很多的性能开销。2，出现公用的 RDD 时候不做持久化操作，比如：RDD2 是会被复用的 RDD，默认情况下，第一次使用 RDD2 生成 RDD3 时候会走一遍 HDFS -> RDD1 -> RDD2然后用 RDD2...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。