（Python版本）Spark RDD 的Transformation与Action的常用功能总结

最新推荐文章于 2023-10-04 00:00:00 发布

sinat_37304083

最新推荐文章于 2023-10-04 00:00:00 发布

阅读量584

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_37304083/article/details/79726347

版权

本文聚焦于Python环境下Spark RDD的Transformation（map、filter、flatMap、mapPartitions、mapPartitionsWithIndex、mapValues）与Action（sample、union、intersection）操作，通过实例展示了这些操作的基本用法，帮助理解Spark数据处理的核心概念。

摘要由CSDN通过智能技术生成

本文主要演示如何通过Python对Spark的RDD进行编程，只列出了一些常用的RDD操作接口，完整的功能，请参考官方文档

Transformation 操作

map : map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。

样例：

>>> templist=[1,2,3,4,5,6]

>>> rdd=sc.parallelize(templist)

>>> result=rdd.map(lambda x:x*3)

>>> result.collect()

[3, 6, 9, 12, 15, 18]

filter：filter是通过指定的函数对已有的RDD做过滤操作，只有符合条件的元素才会被放到新的RDD中

样例：

>>> templist=[1,2,3,4,5,6]

>>> rdd=sc.parallelize(templist)

>>> result=rdd.filter(lambda x:x%2==0)

>>> result.collect()

[2, 4, 6]

flatMap ：

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。