Spark系列--SparkCore(三)RDD基本操作

最新推荐文章于 2024-01-16 14:03:30 发布

淡淡的倔强

最新推荐文章于 2024-01-16 14:03:30 发布

阅读量1.8k

点赞数

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012834750/article/details/81021013

版权

本文介绍了SparkCore中的RDD基本操作，包括Transformation和Action两类。Transformation如map、filter、flatMap等，它们是延迟加载的；Action如reduce、collect、count等，用于触发实际计算。文章详细列举了各种操作的用途和示例，帮助理解Spark的计算模型。

摘要由CSDN通过智能技术生成

前言

RDD的基本操作分为两种，一种是转换Transformation，一种是行动Action

RDD中的所有转换都是延迟加载的，也就是说，它们并不会直接计算结果。相反的，它们只是记住这些应用到基础数据集（例如一个文件）上的转换动作。只有当发生一个要求返回结果给Driver的动作时，这些转换才会真正运行。这种设计让Spark更加有效率地运行。

各算子的详细代码示例，参考如下：
Spark算子使用示例

一、常用的Transformation

1）map(func)

返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成

2）filter(func)

返回一个新的RDD，该RDD由经过func函数计算后返回值为true的输入元素组成

3）flatMap(func)

类似于map，但是每一个输入元素可以被映射为0或多个输出元素（所以func应该返回一个序列，而不是单一元素）

4）mapPartitions(func)

类似于map，但独立地在RDD的每一个分片上运行，因此在类型为T的RDD上运行时，func的函数类型必须是Iterator[T] => Iterator[U]。假设有N个元素，有M个分区，那么map的函数的将被调用N次,而mapPartitions被调用M次,一个函数一次处理所有分区

5）mapPartitionsWithIndex(func)

类似于mapPartitions，但func带有一个整数参数表示分片的索引值，因此在类型为T的RDD上运行时，func的函数类型必须是(Int, Interator[T]) => Iterator[U]

6）sample(withReplacement, fraction, seed)

以指定的随机种子随机抽样出数量为fraction的数据，withReplacement表示是抽出的数据是否放回，true为有放回的抽样，false为无放回的抽样，seed用于指定随机数生成器种子。例子从RDD中随机且有放

最低0.47元/天解锁文章

淡淡的倔强

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。