《Spark快速大数据分析》笔记第三章RDD编程

最新推荐文章于 2022-04-04 22:13:41 发布

scxyz_

最新推荐文章于 2022-04-04 22:13:41 发布

阅读量355

点赞数

分类专栏： spark 文章标签：大数据 spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sscc_learning/article/details/78416981

版权

以下内容均摘抄自《Spark快速大数据分析》

运行规则

总的来说，每个 Spark 程序或 shell 会话都按如下方式工作。

从外部数据创建出输入 RDD。
使用诸如 filter() 这样的转化操作对 RDD 进行转化，以定义新的 RDD。
告诉 Spark 对需要被重用的中间结果 RDD 执行 persist() 操作。
使用行动操作（例如 count() 和 first() 等）来触发一次并行计算， Spark 会对计算进行优化后再执行。

RDD创建

RDD操作

转化操作

返回一个新的 RDD 的操作，比如 map() 和 filter()。
转化出来的 RDD 是惰性求值的，只有在行动操作中用到这些 RDD 时才会被计算。

行动操作

行动操作则是向驱动器程序返回结果或把结果写入外部系统的操作，会触发实际的计算，比如 count() 和 first()。

转化操作返回的是 RDD，而行动操作返回的是其他的数据类型。

惰性求值

RDD 的转化操作都是惰性求值的。这意味着在被调用行动操作之前 Spark 不会开始计算。
惰性求值意味着当我们对 RDD 调用转化操作（例如调用 map()）时，操作不会立即执行。相反， Spark 会在内部记录下所要求

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《Spark快速大数据分析》笔记第三章RDD编程

以下内容均摘抄自《Spark快速大数据分析》运行规则总的来说，每个 Spark 程序或 shell 会话都按如下方式工作。从外部数据创建出输入 RDD。使用诸如 filter() 这样的转化操作对 RDD 进行转化，以定义新的 RDD。告诉 Spark 对需要被重用的中间结果 RDD 执行 persist() 操作。使用行动操作（例如 count() 和 first() 等）来触发一次并行
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。