Spark项目实战-实际项目中常见的优化点-RDD持久化

最新推荐文章于 2024-08-16 09:01:52 发布

Anbang713

最新推荐文章于 2024-08-16 09:01:52 发布

阅读量497

点赞数

文章标签： RDD持久化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Anbang713/article/details/82722102

版权

大数据/Spark/项目实战专栏收录该内容

32 篇文章 1 订阅

订阅专栏

假设我们现在是这样的，RDD1从HDFS上读取源数据，然后转换成RDD2，RDD2又分别转换成RDD3和RDD4。

默认情况下，多次对一个RDD执行算子去获取不同的RDD，都会对这个RDD以及之前的父RDD，全部重新计算一次。比如在这里，我们现在要对RDD3执行后续操作，那么就要先读取HDFS->RDD1->RDD2-RDD3。此时我们又要对RDD4进行后续操作，那么流程是HDFS->RDD1->RDD2-RDD4。相信大家已经意识到HDFS->RDD1->RDD2这个步骤存在重复了，如果这个步骤的执行过程非常漫长，那这种情况简直糟糕透了。一旦出现一个RDD重复计算的情况，就会导致性能急剧降低。所以在这里，必须对RDD2进行持久化操作，那么获取RDD2的时候就可以直接从内存或者磁盘中直接读取了。如下：

持久化的常见方式：

（1）RDD架构重构与优化。

尽量去复用RDD，差不多的RDD可以抽取称为一个共同的RDD，供后面的RDD计算时反复使用。

（2）公共RDD一定要实现持久化。

对于要多次计算和使用的公共RDD，一定要进行持久化。持久化也就是说，将RDD的数据缓存到内存中/磁盘中，（BlockManager），以后无论对这个RDD做多少次计算，那么都是直接取这个RDD的持久化的数据，比如从内存中或者磁盘中直接提取一份数据。

（3）持久化是可以进行序列化的。

如果正常将数据持久化在内存中，那么可能会导致内存的占用过大，这样的话也许会导致OOM内存溢出。当纯内存无法支撑公共RDD数据完全存放的时候，就优先考虑使用序列化的方式在纯内存中存储。将RDD的每个partition的数据，序列化成一个大的字节数组就一个对象。序列化后，大大减少内存的空间占用。

序列化的方式，唯一的缺点就是，在获取数据的时候需要反序列化。如果序列化纯内存方式，还是导致OOM内存溢出。就只能考虑磁盘的方式，内存+磁盘的普通方式（无序列化/序列化）

（4）为了数据的高可靠性，而且内存充足，可以使用双副本机制进行持久化。

持久化的双副本机制，持久化后的一个副本，因为机器宕机副本丢了，就还是得重新计算一次。持久化的每个数据单元，存储一份副本放在其他节点上面，从而进行容错。一个副本丢了，不用重新计算，还可以使用另外一份副本。当然这种方式仅仅针对你的内存资源极度充足。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。