DT_大数据梦工厂第18课 RDD持久化、广播、累加器

最新推荐文章于 2016-05-08 08:12:14 发布

chinsun_1

最新推荐文章于 2016-05-08 08:12:14 发布

阅读量556

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chinsun_1/article/details/50571994

版权

今天内容

1.RRD持久化实战

2.Spark广播实战

3.Spark累加器实战

如果想在命令终端中看到执行结果，就必须collect
凡是Action级别的操作都会触发sc.runJob

Spark所有的算法都有persit。

persit原因: Spark在默认情况下，数据放在内存，适合高速迭代，风险当然也高，所以需要将前面的操作进行persit.

persist:

1.某步骤计算特别耗时；

2.计算链条特别长的情况；

3.checkpoint坐在的RDD也一定要持久化数据；

4.shuffle之后；

5.shuffle之前（框架默认帮助我们把数据持久化到本地磁盘）

前4步手动的，第5是系统自动的

序列化目的为节省空间

将内存中的数据序列化，使用数据时需要反序列化

StorageLevel

MEMORY

MEMORY_AND_DISK , 主要防止OOM

'都是使用内存，如果MEMORY不够，OOM数据会丢失

sc.textFile("/library/wordcount/input/Data").flatMap(_.split(" ")).map(word => (word, 1)).reduceByKey(_+_,1).cache.count

val cached = sc.textFile("/library/wordcount/input/Data").flatMap(_.split(" ")).map(word => (word, 1)).reduceByKey(_+_,1).cache

Cache之后一定不能立即有其它算子！！！

广播是由Driver发给当前Application分配的所有Executor内存级别的全局只读变量，Executor中的线程池中的线程共享该全局变量，极大的减少了网络传输（否则的话每个Task都要传输一次该变量）并极大的节省了内存，当然也隐形的提高的CPU的有效工作。

任务能享用唯一的变量，减少OOM的可能

大变量: 默认情况下，每个Task一定会COPY份数据副本，函数式编程变量不变. 变量大会导致 OOM

内存占用大，如果变量比较大，刚极易出现OOM

累加器，全局级别的

Accumulator：对于Executor只能修改但不可读，只对Driver可读

附上王老师个人名片信息

王家林中国Spark第一人

DT大数据梦工厂
新浪微博： http://weibo.com.ilovepains/
微信公共号：DT_Spark
博客：http://bolg.sina.com.cn/ilovepains
手机：18610086859
qq：1740415547
邮箱：18610086859@vip.126.com

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DT_大数据梦工厂第18课 RDD持久化、广播、累加器

今天内容1.RRD持久化实战2.Spark广播实战3.Spark累加器实战
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。