spark性能调优---rdd重构和rdd持久化

最新推荐文章于 2020-01-01 23:43:03 发布

angel泪

最新推荐文章于 2020-01-01 23:43:03 发布

阅读量391

点赞数

分类专栏： spark性能调优

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013164612/article/details/80608631

版权

spark性能调优专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.尽量去复用RDD，差不多的RDD，可以抽取称为一个共同的RDD，供后面的RDD计算时，反复使用。

2.公共RDD一定要实现持久化(persite，catch)，持久化可以持久化到内存(内存不够可以存放到磁盘里面)

3.序列化我们需要持久化的RDD，序列化会节省空间，不过要使用的时候必须反序列化

4.为了数据的高可靠性，而且内存充足，可以使用双副本机制，进行持久化持久化的双副本机制，持久化后的一个副本，因为机器宕机了，副本丢了，就还是得重新计算一次；持久化的每个数据单元，存储一份副本，放在其他节点上面；从而进行容错；一个副本丢了，不用重新计算，还可以使用另外一份副本。这种方式，仅仅针对你的内存资源极度充足

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark性能调优---rdd重构和rdd持久化

1.尽量去复用RDD，差不多的RDD，可以抽取称为一个共同的RDD，供后面的RDD计算时，反复使用。2.公共RDD一定要实现持久化(persite，catch)，持久化可以持久化到内存(内存不够可以存放到磁盘里面)3.序列化我们需要持久化的RDD，序列化会节省空间，不过要使用的时候必须反序列化4.为了数据的高可靠性，而且内存充足，可以使用双副本机制，进行持久化持久化的双副本机制，持久化...
复制链接

扫一扫

专栏目录

angel泪 CSDN认证博客专家 CSDN认证企业博客

码龄11年

77: 原创

13万+: 周排名

152万+: 总排名

23万+: 访问

: 等级

2473: 积分

33: 粉丝

70: 获赞

54: 评论

132: 收藏

私信

关注

热门文章

分类专栏

最新评论

如何保证消息队列里面的消息不发生丢失情况
angel泪: 好吧，现在更新下，填一下三年前的坑，首先消息丢失分成三种场景，第一种是生产者在发送消息的过程中消息会丢失，正常消息队列都有同步和异步，如果非要保证生产者端不丢失，你自己应该也知道怎么处理了把，但是会带来严重的吞吐量下降，更合理的方案参考rocketmq的事务消息，第二种是在消息队列的broker端丢失消息，丢失的原因是和你自己的刷盘策略有关系，保证不丢失，就要让你的刷盘策略变成刷到磁盘上才算刷盘成功，第三种就是消费端会存在丢失消息，解决方案应该把自动提交变成手动提交，这样的话能保证你整个生产端->消费端的消息都不会丢失
如何保证消息队列里面的消息不发生丢失情况
angel泪: 哈哈哈现在感觉太简单了，就没有更上去了
如何保证消息队列里面的消息不发生丢失情况
showcking: 快三年了，你的解决方案呢？
springboot整合RabbitMQ，消费失败无响应问题?
码上在线: 还没有解决吗
springboot整合RabbitMQ，消费失败无响应问题?
angel泪: 记录下问题

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。