Spark性能调优之——在实际项目中重构RDD架构以及RDD持久化

最新推荐文章于 2021-01-06 21:45:54 发布

唐予之_

最新推荐文章于 2021-01-06 21:45:54 发布

阅读量777

点赞数

分类专栏： -----Spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lxhandlbb/article/details/52619410

版权

-----Spark 专栏收录该内容

50 篇文章 0 订阅

订阅专栏

一、导读

What？RDD重构和持久化是什么？

How？怎么做？

Why？为什么要重构或持久化？

总结

二、RDD重构和持久化是什么？

三、怎么做？

四、为什么要重构或持久化？

4.1 RDD架构重构与优化。

尽量去复用RDD，差不多的RDD，可以抽取为一个共同的RDD，供后面的RDD计算时，反复使用。

4.2 公共RDD一定要实现持久化。

北方吃饺子，现包现煮。
对于多次计算和公共的RDD，一定要进行持久化。
持久化，也就是说，将RDD的数据缓存到内存中、磁盘中，BlockManager。
以后无论对这个RDD做多少次计算，那么都直接取这个RDD的持久化的数据，比如从内存中，或者磁盘中，直接提取一份数据。

4.3 持久化，是可以进行序列化的。

如果正常将数据持久化在内存中，那么可能会导致内存占用过大，这样的话，也许会导致OOM内存溢出。

当纯内存无法支撑公共RDD数据完全存放的时候，就优先考虑，使用序列化的方式，在纯内存中村粗。
将RDD的每个partion的数据，序列化成一个大的字节数组，就一个对象；
序列化后，大大减少内存的空间占用。

序列化的方式，唯一的缺点，就是，获取数据的时候，需要反序列化。

如果序列化纯内存的方式，还是导致OOM，内存溢出。
就只能考虑磁盘的方式，内存+磁盘，普通方式（持久化）

内存+磁盘，序列化。

4.4 为了数据的高可靠，而且内存充足，可以使用双副本机制，进行持久化。

持久化双副本，持久化后的一个副本，因为机器宕机了，副本丢了，就还是得重新计算一次；
持久化的每个数据单元，存储一份副本，放在其他节点上，从而进行容错。一个副本丢了，可以使用另外一个。

这种方式，仅仅针对内存资源极度充足。！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark性能调优之——在实际项目中重构RDD架构以及RDD持久化

一、导读What？RDD重构和持久化是什么？How？怎么做？Why？为什么要重构或持久化？总结二、RDD重构和持久化是什么？三、怎么做？四、为什么要重构或持久化？4.1 RDD架构重构与优化。尽量去复用RDD，差不多的RDD，可以抽取为一个共同的RDD，供后面的RDD计算时，反复使用。4.2 公共RDD一定要实现持久化。北方吃饺子，现包现煮。对于多次计算和公共的RDD，一定要进行持久化。持久
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。