(Python版本)Spark RDD 的Transformation与Action的常用功能总结

本文聚焦于Python环境下Spark RDD的Transformation(map、filter、flatMap、mapPartitions、mapPartitionsWithIndex、mapValues)与Action(sample、union、intersection)操作,通过实例展示了这些操作的基本用法,帮助理解Spark数据处理的核心概念。
摘要由CSDN通过智能技术生成

本文主要演示如何通过Python对Spark的RDD进行编程,只列出了一些常用的RDD操作接口,完整的功能,请参考官方文档

  1. Transformation 操作

  •      map : map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。

            样例:

>>> templist=[1,2,3,4,5,6]
>>> rdd=sc.parallelize(templist)
>>> result=rdd.map(lambda x:x*3)
>>> result.collect()

[3, 6, 9, 12, 15, 18]

  •     filter:filter是通过指定的函数对已有的RDD做过滤操作,只有符合条件的元素才会被放到新的RDD中

               样例:

>>> templist=[1,2,3,4,5,6]
>>> rdd=sc.parallelize(templist)
>>> result=rdd.filter(lambda x:x%2==0)
>>> result.collect()
[2, 4, 6]

  •     flatMap : 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值